5

WordNetを使用してPythonの2つのテキスト間の意味的類似性をどのように判断できますか?

明らかな前処理は、ストップワードとステミングを削除することですが、それではどうしますか?

私が考えることができる唯一の方法は、2つのテキストの各単語間のWordNetパス距離を計算することです。これはユニグラムの標準です。しかし、これらは大きな(400ワード)テキストであり、自然言語のドキュメントであり、特定の順序や構造(英語の文法によって課せられたものを除く)ではない単語が含まれています。では、テキスト間でどの単語を比較しますか?Pythonでこれをどのように行いますか?

4

1 に答える 1

11

あなたができることの1つは次のとおりです。

  1. ストップワードを殺す
  2. 同義語および反意語と、同じドキュメント内の他の単語との共通部分が最大になる単語をできるだけ多く見つけます。「大切な言葉」と呼ぼう
  3. 各文書の重要語句のセットが同じかどうかを確認します。それらが近くにあるほど、ドキュメントは意味的に似ています。

別の方法があります。各ドキュメントのセンテンスからセンテンス ツリーを計算します。次に、2 つのフォレストを比較します。私はずっと前にコースのためにいくつかの同様の仕事をしました。コードは次のとおりです(これはずっと前のことであり、クラス用であったことに注意してください。控えめに言っても、コードは非常にハックです)。

お役に立てれば

于 2012-07-13T03:26:25.610 に答える