java - テキスト間の類似性を計算するアルゴリズム

Question

ソーシャルネットワークからの投稿間の類似性をスコアリングしようとしていますが、そのための適切なアルゴリズムが見つかりませんでした。

レーベンシュタインやジャロウィンクラーなどを試しましたが、感情のないテキストを比較するために使用されています。投稿では、「私は犬が本当に好きです」というテキストと「犬が本当に嫌いです」というテキストを受け取ることができます。このケースをまったく異なるものとして分類する必要があります。

ありがとう

score 4 · Accepted Answer

ああ...でも「私は犬が大好き」と「犬が大嫌い」はまったく同じです;）、どちらも犬に対する気持ちについて話し合っています。あなたはそこに一歩を逃しているようです：

アルゴリズムを実行して、一般的なトピックグループ（つまり、「犬に対する感情」）を取得します。
アルゴリズムを再度実行しますが、今回は以前に「検出された」グループごとに、アルゴリズムでさらにサブグループに分類します（つまり、「ihatedogs」/「ilovedogs」）。

アルゴリズムがその経験に基づいて調整される場合（つまり、ある程度の学習が必要な場合）、最初の分類ではアルゴリズムの個別のインスタンスを実行し、サブ分類ごとにアルゴリズムの新しいインスタンスを実行するようにしてください...そうしないと、いくつかのグループが見つかり、同じグループでアルゴリズムを実行するたびに、結果がほぼ同じになるか、まったく変更されない場合があります。

アップデート

Apache Mahoutは、クラスタリング、分類、遺伝的プログラミング、ディシジョンフォレスト、レコメンデーションマイニングの多くの有用なアルゴリズムと例を提供します。mahoutのテキスト分類例のいくつかを次に示します。

どちらが問題に最も適しているかはわかりませんが、それらを調べると、特定のアプリケーションに最適なものがわかるかもしれません。

score 2 · Accepted Answer

私の研究は感情分析に関するものであり、ピエールに同意します。これは難しい問題であり、その主観的な性質を考えると、一般的なアルゴリズムは存在しません。私が最初に試したアプローチの1つは、文を感情的な空間にマッピングし、文の重心までの距離に関する感情を決定することでした。あなたはそれを見るかもしれません：

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

上記の文はうまく機能します;）

score 1 · Accepted Answer

タスクの複雑さを理解するために、意見のマイニングと感情分析を確認することをお勧めします。

簡単な答え：これには「良いアルゴリズム」はなく、平凡なものだけです。そして、これは非常に難しい問題です。幸運を。

java - テキスト間の類似性を計算するアルゴリズム

3 に答える 3

アップデート

Related

Reference