0

言い換えに基づいて類似のコンテンツ (テキスト) を見つけることに興味があります。どうすればいいですか?これを行うことができる特定のツールはありますか? できればPythonで。

4

3 に答える 3

0

この質問への回答を読むことをお勧めします。特に最初の 2 つの回答は非常に優れています。自然言語処理ツールキット
もお勧めできます(個人的には試していません)

于 2014-01-18T15:36:02.027 に答える
0

ニュース記事間の類似性については、品詞のタグ付けを使用してキーワードを抽出できます。NLTK は優れたPOS タガーを提供します。名詞と名詞句をキーワードとして使用し、各ニュース記事をキーワード ベクトルとして表します。

次に、コサイン類似度またはそのようなテキスト類似度測定を使用して、類似度を定量化します。

さらなる機能強化には、同義語の処理、単語のステミング、必要に応じて形容詞の処理、ベクトル内のキーワードの重みとして TF-IDF を使用することが含まれます。

于 2014-01-20T12:07:13.280 に答える