0

同じ文で製品に対して最も頻繁に使用される上位 3 つの形容詞を見つけるアルゴリズムを考え出そうとしています。アソシエーションルールマイニング(アプリオリアルゴリズム)を使いたい。

そのためにtwitterのデータを利用する予定です。私は多かれ少なかれ、twits を文に分解することができ、フィルタリングを使用して製品名と形容詞を見つけることができます。

たとえば、フィルタリング後、次のようなデータがあります。

iPad mini、素晴らしい

iPad mini、ひどい

サムスンギャラクシーs2、最高

...など

製品名と形容詞は事前に定義されています。探している製品名と形容詞のセットがあります。

センチメンタル分析とルール マイニングに関するいくつかの論文を読んだことがありますが、すべて Apriori アルゴリズムが使用されていると書かれています。しかし、彼らはそれをどのように使用したかについては言及しておらず、詳細も明らかにしていません。

Therefore how can I reduce my problem to association rule mining problem? 
What values should I  use for minsup and minconf? 
How can I modify Apriori algorithm to solve this problem?

私が考えているのは;

製品ごとに、頻繁に使用される形容詞を個別に見つける必要があります。次に、並べ替えによって上位 3 つの形容詞を取得できます。しかし、それが正しいかどうかはわかりません。

4

2 に答える 2

1

各製品で最も使用されている上位 3 つの形容詞を見つけることは、アソシエーション ルール マイニングではありません

Apriori で良い結果が得られるようにするには、長さ 4 以上のアイテムセットに関心がある必要があります。Apriori pruning は長さ 3 で始まり、長さ 4 で大きな利益をもたらし始めます。長さ 2 では、ほとんどすべてのペアを列挙しています。また、ペア (製品、形容詞) のみに関心がある場合、アプリオリは必要以上に多くの作業を行っています。

代わりに、 count を使用してください。ハッシュ テーブルを使用します。実際に数エクサバイトのデータがある場合は、近似カウントと強力なアルゴリズムを使用してください。(しかし、ほとんどの場合、それらのペアを抽出した後、エクサバイトのデータはありません...)

このはるかに単純な問題を解決する必要があるだけである場合は、アソシエーション ルール マイニングを調査する必要はありません。

アソシエーション ルール マイニングは次のようなパターンを見つけるためだけのものです。

pasta, tomato, onion -> basil

さらに複雑なルール。Apriori の貢献は、長さ n-1 から長さ n > 2 の n に移行するときに候補の数を減らすことです。n > 3 の場合、より効果的になります。

于 2014-05-25T15:33:44.577 に答える
0

問題をアソシエーション ルール マイニング (ARM) に還元する

すべてのトピックと形容詞を持つ特徴ベクトルを作成します。フィードにトピックが含まれている場合は、トピックに 1 を配置し、それ以外の場合はタプルに 0 を配置します。たとえば。トピックが Samsung と Apple であるとします。そして形容詞は良くて恐ろしいです。とフィードには、サムスンの良いが含まれています。それに対応するタプルは次のとおりです。

サムスン アップル 良い ひどい

1 0 1 0

Apriori Algorithm への変更が必要

タイプ「トピック」のアソシエーション ルールを生成 --> 制約付きアプリオリ アルゴリズムを使用して「形容詞」。「トピック」 --> 「形容詞」は制約です。

MinSup と MinConf の設定方法 : 「Minin top-k 関連付けルール」という論文を読んでください。上位 3 つの形容詞に対して k=3 で実装します。

于 2014-09-24T18:02:59.300 に答える