1

たくさんの本の説明があるとしましょう。このテキストを互いに比較できるようにするテクニックは何でしょうか。類似した主題を持つ本をグループ化できます。

4

2 に答える 2

3

2 つのテキスト単位の類似性を判断するためのアルゴリズムと手法は非常に多数あります。意味を気にせず、2 つの文字列の語彙的類似性に興味がある場合は、文字列類似性のためのテクニックがたくさんあります。その中で、レーベンシュタイン距離は、最高のパフォーマンスではないにしても、最もよく知られているものの 1 つです。 . ただし、意味的類似性が必要であると明示的に述べているため、潜在的意味分析に関する WikiPedia ページが良い出発点になります。非常に大まかに言えば、LSA は、あまり使用されない用語 (単語または語句) の平均よりも多くの出現を含むドキュメントを検索し、一般的でない用語の使用頻度に基づいてドキュメントをクラスタ化します。

于 2012-09-27T13:25:17.657 に答える
0

たとえば、文レベルで何かを比較したい場合は、Jaccardの類似度係数をお勧めします。各文を最小単位として扱います。必要に応じて単語にドリルダウンできます。これは問題の「セマンティック」部分を実際に解決するものではありませんが、優れた文字列類似アルゴリズムとして機能します。

于 2015-06-13T05:19:57.143 に答える