3

「 Web ユーザーの集合的な知識を活用する反復プロセスとしてのスペル修正」で説明されている方法を実装することにより、検索エンジン クエリのスペル修正プログラムを構築しています。

高レベルのアプローチは次のとおりです。特定のクエリについて、各ユニグラムとバイグラムの可能な修正候補 (特定の編集距離内にあるクエリ ログ内の単語) を考え出し、修正されたビタビ検索を実行して、最も可能性の高いシーケンスを見つけます。バイグラム周波数が与えられた候補の。シーケンスが最大確率になるまで、このプロセスを繰り返します。

ビタビ検索への変更は、2 つの隣接する単語が両方とも信頼できる語彙で見つかった場合、多くても 1 つを修正できるようにするためのものです。これは、正しいスペルの単一単語のクエリがより頻度の高い単語に修正されるのを避けるために特に重要です。

私の質問は、そのような辞書をどこで見つけるかです。英語で作成し、検索クエリに表示される可能性が高い固有名詞 (姓名、地名、ブランド名など) と、一般的および一般的ではない英語の単語を含める必要があります。正しい方向へのプッシュでも役に立ちます。

また、誰かがこれを読んでいて、論文で提供されている方法論を改善するための提案がある場合は、これが NLP への私の最初の進出であることを考えると、それらに対してオープンです。

4

1 に答える 1

2

この目的に最適なレキシコンは、おそらく Google Web 1T 5-gram データ セットです。

http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13

残念ながら、大学が LDC のメンバーでない限り無料ではありません。

Python NLTK などのパッケージでコーパスを試すこともできますが、既に検索クエリに関連しているため、Google のコーパスが目的に最適なようです。

于 2010-01-29T19:35:37.133 に答える