algorithm - 英語のテキスト辞書の比較

Question

想像してみてください。統計表を作成できます。英語のテキストや本で各単語がどれだけ使用されているかを示します。図書館の各教科書の統計を集めることができます。これらの統計を相互に比較する最も簡単な方法は何ですか？統計的に非常に類似したレキシコンを持つテキストのグループ/クラスターをどのように見つけることができますか？

score 0 · Accepted Answer

まず、Lucene（http://lucene.apache.org/java/docs/index.html）が提供するものを確認します。その後、機械学習の方法を使用して、http：//en.wikipedia.org/wiki/Information_retrievalを確認する必要があります。

score 0 · Accepted Answer

まず、レキシコンを正規化する必要があります（つまり、両方のレキシコンが同じ語彙を持っていることを確認します）。

次に、ヘレンジャー距離やコサイン類似度などの類似度メトリックを使用して、2つのレキシコンを比較できます。

Wekaなどの機械学習パッケージを調べることもお勧めします。

この本は機械学習の優れた情報源であり、役立つかもしれません。

score 0 · Accepted Answer

カルバックライブラー距離を検討するかもしれません。参考までに、カバーとトーマスの18ページを参照してください。

第2章、カバーとトーマス

algorithm - 英語のテキスト辞書の比較

3 に答える 3

Related

Reference