9

次の仕様のスペルチェッカーが必要です。

  • 非常にスケーラブルです。
  • 提案された単語の最大編集距離を設定できるようにします。
  • 提供された単語の頻度に基づいて提案を取得します (最も一般的な単語が最初)。

Hunspell を調べてみ
ました。man にパラメータ MAXDIFF が見つかりましたが、期待どおりに動作していないようです。使い方が悪いのかな

ファイルt.aff :

MAXDIFF 1 

ファイルdico.dic :

5  
rouge  
vert  
bleu  
bleue  
orange  

-

NHunspell.Hunspell h = new NHunspell.Hunspell("t.aff", "dico.dic");
List<string> s = h.Suggest("bleuue");

t.aff同じものが空かそうでないかを返します:

bleue
bleu
4

2 に答える 2

3

Apache Solr私たちは、私たちのニーズを正確に満たすを使用することにしました。
http://wiki.apache.org/solr/SpellCheckComponent#spellcheck

于 2012-01-09T21:23:30.647 に答える
0

1 の maxdiff はいくつかを返すはずですが、それでも複数を返す可能性があります。

ゼロの maxdiff でも複数の結果が得られる可能性がありますが、変化は小さくなるはずです。n-gramに依存します。ゼロ以下の結果の maxdiff を試してみてください。

最も頻繁に使用される単語で並べ替えるという要件については、Google ngram コーパスが公開されています。

于 2011-11-06T07:34:17.787 に答える