WordNetを使用してPythonの2つのテキスト間の意味的類似性をどのように判断できますか?
明らかな前処理は、ストップワードとステミングを削除することですが、それではどうしますか?
私が考えることができる唯一の方法は、2つのテキストの各単語間のWordNetパス距離を計算することです。これはユニグラムの標準です。しかし、これらは大きな(400ワード)テキストであり、自然言語のドキュメントであり、特定の順序や構造(英語の文法によって課せられたものを除く)ではない単語が含まれています。では、テキスト間でどの単語を比較しますか?Pythonでこれをどのように行いますか?