同じ文で製品に対して最も頻繁に使用される上位 3 つの形容詞を見つけるアルゴリズムを考え出そうとしています。アソシエーションルールマイニング(アプリオリアルゴリズム)を使いたい。
そのためにtwitterのデータを利用する予定です。私は多かれ少なかれ、twits を文に分解することができ、フィルタリングを使用して製品名と形容詞を見つけることができます。
たとえば、フィルタリング後、次のようなデータがあります。
iPad mini、素晴らしい
iPad mini、ひどい
サムスンギャラクシーs2、最高
...など
製品名と形容詞は事前に定義されています。探している製品名と形容詞のセットがあります。
センチメンタル分析とルール マイニングに関するいくつかの論文を読んだことがありますが、すべて Apriori アルゴリズムが使用されていると書かれています。しかし、彼らはそれをどのように使用したかについては言及しておらず、詳細も明らかにしていません。
Therefore how can I reduce my problem to association rule mining problem?
What values should I use for minsup and minconf?
How can I modify Apriori algorithm to solve this problem?
私が考えているのは;
製品ごとに、頻繁に使用される形容詞を個別に見つける必要があります。次に、並べ替えによって上位 3 つの形容詞を取得できます。しかし、それが正しいかどうかはわかりません。