python - WordNetを使用して2つのテキスト間の意味的類似性を判断しますか？

Question

WordNetを使用してPythonの2つのテキスト間の意味的類似性をどのように判断できますか？

明らかな前処理は、ストップワードとステミングを削除することですが、それではどうしますか？

私が考えることができる唯一の方法は、2つのテキストの各単語間のWordNetパス距離を計算することです。これはユニグラムの標準です。しかし、これらは大きな（400ワード）テキストであり、自然言語のドキュメントであり、特定の順序や構造（英語の文法によって課せられたものを除く）ではない単語が含まれています。では、テキスト間でどの単語を比較しますか？Pythonでこれをどのように行いますか？

score 11 · Accepted Answer

あなたができることの1つは次のとおりです。

ストップワードを殺す
同義語および反意語と、同じドキュメント内の他の単語との共通部分が最大になる単語をできるだけ多く見つけます。「大切な言葉」と呼ぼう
各文書の重要語句のセットが同じかどうかを確認します。それらが近くにあるほど、ドキュメントは意味的に似ています。

別の方法があります。各ドキュメントのセンテンスからセンテンスツリーを計算します。次に、2 つのフォレストを比較します。私はずっと前にコースのためにいくつかの同様の仕事をしました。コードは次のとおりです(これはずっと前のことであり、クラス用であったことに注意してください。控えめに言っても、コードは非常にハックです)。

お役に立てれば

python - WordNetを使用して2つのテキスト間の意味的類似性を判断しますか？

1 に答える 1

Related

Reference