-3

ソーシャル ネットワークに対する人々の認識を調べるセンチメント分析ツールがあります。このツールでできること: (1) 文書を一連の文に分解する。

(2) 各文を単語の集合に分解し、製品名と形容詞のみが保存されるようにフィルタリングを実行します。

例:「この MacBook は素晴らしい。ソニーは MacBook より優れている。」

処理後、以下を取得できます。

{MacBook、すごい}

{ソニーの方がいい}。(真実ではない:D)

常に気にする製品名 P のリストが存在し、常に気にする形容詞 A のリストが存在すると仮定します。

私の質問は次のとおりです。

  1. この問題を特殊なアソシエーション ルール マイニングの問題に還元することはできますか?また、その方法は? はいの場合、削減、パラメーター設定 (minsup および minconf)、追加の制約、および問題を解決するための Aprior アルゴリズムへの変更など、何かに注意する必要があります。

  2. トップ1の形容詞に「恐ろしい」を追加するなど、結果を人為的にスパムする方法はありますか? このスパムを防ぐ良い方法はありますか?

ありがとう。

4

1 に答える 1

0

数えることを考えたことはありますか?

すべての製品について、各形容詞が出現する頻度を数えます。

各製品の上位 3 つの形容詞を報告します。

データを1 回渡すだけで、多くのメモリを使用しません (追跡する製品が何百万もある場合を除きます)。

アソシエーション ルール マイニングを使用する理由はありません。アソシエーション ルール マイニングは、大きな項目セット(つまり、4 つ以上の用語)を探している場合にのみ効果があり、それらは等しく重要です。1 つの用語が特別であることがわかっている場合 (例: 製品名と形容詞)、この一意のキーでデータ セットを分割し、カウントを使用することは理にかなっています。

于 2014-06-06T12:37:07.497 に答える