問題タブ [spelling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - マリサ トライへの要素の追加
スペル ミス検出タスクでは、Python 3.5 でレキシコンにmarisa_triesデータ構造を使用します。
短い質問
に要素を追加するにはどうすればよいmarisa_trie
ですか?
コンテキスト
アイデアは次のとおりです。単語が私の辞書にある場合、それは正しいです。もし私の辞書に載っていなければ、おそらく間違っているでしょう。しかし、ドキュメント全体の単語の頻度を計算しました。単語の頻度が十分に高い場合は、この単語を保存したいと思います。十分な頻度であり、おそらく正しいと考えています。その場合、この新しい単語をmarisa_trie.Trie
辞書に追加するにはどうすればよいですか? (毎回新しいトライを作成する必要はありません)?
ありがとうございました :)
bash - TeX 文書の英国英語を米国スペルに変換する Bash スクリプト/ユーティリティ
TeXドキュメントで英国/ニュージーランドのスペルをアメリカ語に変換するための簡単なBashスクリプトを探しています(米国を拠点とする学者やジャーナルへの提出用)。これは、地域の用語や文法がほとんどない正式な数理生物学の論文です。以前の研究は、引用ではなく式として示されています。
例えば、
Generalise
->Generalize
Colour
->Color
Centre
->Centre
一般的なスペルの違いのほとんどを置き換えるには、Figure there must besed
またはbased script が必要です。awk
詳細については、関連する TeX フォーラムの質問を参照してください。
https://tex.stackexchange.com/questions/312138/converting-uk-to-us-spellings
nb現在、Ubuntu 16.04またはElementary OS 0.3 FreyaでPDFLaTeXをコンパイルしていますkile
が、他の場所に組み込みの修正がある場合は、別のTeXコンパイラ/パッケージを使用できます。
ご協力ありがとうございます。
python - ユーザーが送信したドメイン名の入力ミスをチェックするにはどうすればよいですか?
基本的に、私はユーザーが送信した電子メールを、ほんの数文字のタイプミスで自動的に修正しようとしています。たとえば、ユーザーが誤って gmail.com の代わりに gamil.com または gmial.com を送信した場合、それを修正したいと思います。このタスクを処理するための良い方法は何ですか?
nlp - スペル修正モデルの評価は?
私はスペル修正モデルを調査しており、いくつかの評価指標を見つけようとしています。偽陰性は既に正しい単語を修正しようとするものであり、偽陽性は誤りを見逃すものであると考える場合、精度、再現率、および精度を計算できます。ただし、これらのメトリクスは、修正モデルの品質 (間違った単語をユーザーが入力しようとしていたものに正しく修正したかどうか) については何も述べておらず、修正機能ではなくスペルチェック機能のみを評価しています。
java - 検索アルゴリズムを最適化するには?
つまり、基本的にここで意味するのは、便利な検索ツールを作成する方法です(おそらく配列または配列リストなどで一連の文字列を検索するなど) 。必ずしも高速ではありませんが、便利です。
たとえば、検索している用語のスペルは似ているが正確ではない結果が得られる場合、「オートコレクト」を組み込むのはどれほど簡単でしょうか? または、単語全体ではなく最初の 3 文字に一致する結果、または単語を含む可能性があるが必ずしも単語全体で構成されるとは限らない結果ですか? これまたはクラスのAPIはありますか、それともここで私を助けるアルゴリズムはありますか?
php - PHP の類似した形式の文字セットに基づくスペル修正の改善
OCR出力で動作する英語以外の言語用のスペル修正システムを開発しています。私は非常に大きな辞書を使ってスペルミスをチェックし、提案をします。
スペルミスのほとんどは、似た形の文字によるものです。たとえば、、、、、ـجـ
など。これらの文字は英語にも存在しـچـ
ます。たとえば、、、、、などです。ـحـ
ـخـ
غ
ع
I
l
u
v
y
スペル チェック システムは、チェックしたい単語の候補を示します。たとえば、入力voga
すると、次の単語が提案されます。
volga
boga
yoga
toga
の長さvoga
は 4 であるため、4 文字の候補のみを保持します。ここで、OCR エンジンはv
asを検出できるためy
(形式が似ているため)、OCR 出力としてyoga
の最適な候補として選択します。voga
私たちの言語では、この種の選択は非常に効果的です。たとえば、 を入力するمدپر
と、次の単語が提案されます。
مدارا
مدار
مدیر
مراد
セット (この例ـبـ
でـپـ
は、 、ـیـ
、ز
、ر
、ژ
、ذ
、、 )د
と単語の長さに基づいて、 の最適なオプションになります。مـ
فـ
قـ
مدیر
مدپر
この関数を PHP スクリプト言語で通常実装する方法は、提案された単語を同じ長さに保ち、すべてのセット ( مدپر
、 、فدپر
、 、など)قدپر
を置き換えて、スペルが間違っている単語の可能な組み合わせをすべて作成し、検索することです。提案リスト内の同じ単語。しかし、この実装方法は非常に遅く (特に大規模なコンテキストでは)、ほとんど役に立ちません。مذپر
فذپر
قذپر
PHP でこの種の関数を実装するための最良の方法またはアルゴリズムは何ですか?
アップデート:
候補リストを生成するエンジンは最適化されており、通常は候補リストに正しい単語が含まれています。問題は、私のシステムが人工知能なしで正しい単語として提案の 1 つを選択しなければならないことです。この方法は私の言語には適していると思います。なぜなら、似たような形の文字のセットがたくさんあり、OCR エンジンが通常単語を間違って検出するのはそのためです。しかし、より良い方法がある場合は、それらを提案することを歓迎します。
excel - VBA のユーザー フォームでのスペル チェック
VBA のユーザー フォームにあるすべてのラベルのスペルをチェックしたいと考えています。
誰かが私を助けてくれれば幸いです。
java - Android キーボードにオートコレクトを追加する方法はありますか?
私は Android キーボードに取り組んでおり、オートコレクトを追加する方法があるかどうかを確認しようとしていました。または、オートコレクトはスペル チェック フレームワークで提供されますか? ここや私が見た他の場所のどこにも明確な答えが見つかりません。
私のキーボードのコードはここにあります > https://github.com/MJonesDev/AndroidKeyboardPractice
python - 文字列を比較してブランド名と一致させ、スペルミスを取り除きます
ブランド名 (Coca-Cola、Pepsi、7Up など) を含むテキストのリストがあります。同じ内容 (すべてのテキストを小文字にした後、まったく同じテキスト) を持つすべてのセルを並べ替えてカウントし、各テキストの数でリストを並べ替えて、最も多く表示されるテキストが最初になるようにする python スクリプトを作成しました。ほとんどの人がブランド名を正しく書くと思うからです。たとえば、次のリストがあるとします。
最初のステップの後、リストは次のようになります。
2 番目のステップでは、ngramパッケージを使用して、スペルミスを修正するために、より近いテキストを一致させようとしています。重要な注意: 私の重要な要求の 1 つは、言語にとらわれないソリューションを用意することです。
私の問題は、NGRAM が長いテキストではうまく機能するが、短いテキストではパフォーマンスが悪いことです。たとえば、実行時:
結果は次のようになります。
これは非常に低い「スコア」ですが、ご覧のとおり、文字列は非常に近く、位置が間違っている文字は 1 つだけです。
嫌悪感を改善するにはどうすればよいですか?別のアルゴリズムを使用する必要がありますか? それとも、このテストに別のパラメーターを指定しますか? 私が見つけたすべての「新しい」単語を含む辞書を追加して追加することを考えました。その後、各単語を比較できますが、スクリプトの粒度が失われます。