想像してみてください。統計表を作成できます。英語のテキストや本で各単語がどれだけ使用されているかを示します。図書館の各教科書の統計を集めることができます。これらの統計を相互に比較する最も簡単な方法は何ですか?統計的に非常に類似したレキシコンを持つテキストのグループ/クラスターをどのように見つけることができますか?
user313885
質問する
370 次
3 に答える
0
まず、Lucene(http://lucene.apache.org/java/docs/index.html)が提供するものを確認します。その後、機械学習の方法を使用して、http://en.wikipedia.org/wiki/Information_retrievalを確認する必要があります。
于 2011-01-23T01:10:03.530 に答える
0
まず、レキシコンを正規化する必要があります(つまり、両方のレキシコンが同じ語彙を持っていることを確認します)。
次に、ヘレンジャー距離やコサイン類似度などの類似度メトリックを使用して、2つのレキシコンを比較できます。
Wekaなどの機械学習パッケージを調べることもお勧めします。
この本は機械学習の優れた情報源であり、役立つかもしれません。
于 2011-01-23T01:18:38.823 に答える
0
カルバックライブラー距離を検討するかもしれません。参考までに、カバーとトーマスの18ページを参照してください。
于 2011-01-23T09:44:35.247 に答える