問題タブ [apriori]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Weka Java: arff ファイルを作成する
Java で ARFF ファイルを作成しましたが、最後の 2 つの属性 (TAG、idSentence) をアプリオリに計算から除外します。
apriori 属性 TAG および idSentence の計算から除外できる特定のフィルターはありますか?
編集: weka.filters.unsupervised.attribute.Remove フィルターを設定し、最後の 2 つの属性を設定し、アプリオリを実行した直後に! それは正しいと思います!
csv - 公称値であっても、アプリオリの開始ボタンが無効になっているのはなぜですか?
*.xls に 3 つの臨床データ ファイルがあります。これら 3 つのファイルを Microsoft Excel に *.csv ファイルとして保存しました。そして、これらの *.csv ファイルを Weka ツールにインポートしました。Apriori アソシエーション ルールを使用するために、 " weka>>filters>>unsupervised>>attribute>>NumericToNominal " でデータ型を Nominal データ型に変更しました。ただし、「Associate」タブでは、「開始」ボタンが無効になっているため、Apriori ルールは使用できません。
これらの問題を解決するにはどうすればよいですか? Weka ツールで Apriori ルールを使用するためのその他の制限はありますか? ...
どうもありがとう !
よろしくお願いします、
アンワル
apriori - アプリオリ アルゴリズムを使用したサポートの計算
以下の取引がある場合
{2} = 2 のサポートと {3} =2 のサポートですか、重複を削除しますか?
data-mining - アソシエーション ルール マイニングによる感情分析
同じ文で製品に対して最も頻繁に使用される上位 3 つの形容詞を見つけるアルゴリズムを考え出そうとしています。アソシエーションルールマイニング(アプリオリアルゴリズム)を使いたい。
そのためにtwitterのデータを利用する予定です。私は多かれ少なかれ、twits を文に分解することができ、フィルタリングを使用して製品名と形容詞を見つけることができます。
たとえば、フィルタリング後、次のようなデータがあります。
iPad mini、素晴らしい
iPad mini、ひどい
サムスンギャラクシーs2、最高
...など
製品名と形容詞は事前に定義されています。探している製品名と形容詞のセットがあります。
センチメンタル分析とルール マイニングに関するいくつかの論文を読んだことがありますが、すべて Apriori アルゴリズムが使用されていると書かれています。しかし、彼らはそれをどのように使用したかについては言及しておらず、詳細も明らかにしていません。
私が考えているのは;
製品ごとに、頻繁に使用される形容詞を個別に見つける必要があります。次に、並べ替えによって上位 3 つの形容詞を取得できます。しかし、それが正しいかどうかはわかりません。
data-mining - Weka を使用したアソシエーション ルールの欠損値の処理
Weka は初めてで、問題が発生しています。約 13 の機能 (すべてバイナリ) を持つデータセットがあります。一部の機能は、小さなデータ セットにのみ適用できます。Weka を使用してアソシエーション ルール マイニングを実行すると、特徴値が 0 であることに基づいて、属性間の強い相関関係が識別されます (0 は、特徴が適用されないことを意味します)。
正の特徴についてのみ相関関係を特定してほしい。どうすればいいですか?
algorithm - アプリオリアルゴリズム実行時間
1994 年に導入された基本アプリオリ アルゴリズムの時間計算量は? 応答をバックアップするために、可能であれば参考文献/記事を引用してください。ありがとうございました。
data-mining - ツイート内の製品の上位 3 つの形容詞を見つける感情分析
ソーシャル ネットワークに対する人々の認識を調べるセンチメント分析ツールがあります。このツールでできること: (1) 文書を一連の文に分解する。
(2) 各文を単語の集合に分解し、製品名と形容詞のみが保存されるようにフィルタリングを実行します。
例:「この MacBook は素晴らしい。ソニーは MacBook より優れている。」
処理後、以下を取得できます。
{MacBook、すごい}
{ソニーの方がいい}。(真実ではない:D)
常に気にする製品名 P のリストが存在し、常に気にする形容詞 A のリストが存在すると仮定します。
私の質問は次のとおりです。
この問題を特殊なアソシエーション ルール マイニングの問題に還元することはできますか?また、その方法は? はいの場合、削減、パラメーター設定 (minsup および minconf)、追加の制約、および問題を解決するための Aprior アルゴリズムへの変更など、何かに注意する必要があります。
トップ1の形容詞に「恐ろしい」を追加するなど、結果を人為的にスパムする方法はありますか? このスパムを防ぐ良い方法はありますか?
ありがとう。
java - サブセットが期待どおりに取得されない
データセットで頻繁に使用されるアイテムの数を見つけようとしています。最初に、入力文字列のサブセットを見つけようとしました
私がこれまでに行ったことは、
そして、出力は
サブセットは次のようになると思います
ここcoke
で取得してrepeated
います。
私は何か間違ったことをしていますか?
ご意見をお聞かせください。
r - R プログラミングでルール トランザクション データをアイテム マトリックスに変換する
以下のようなトランザクション形式で 100,000 行のデータセットがあります
以下のようにマトリックス形式に変換したい(またはTRUE / FALSEフラグ)
次の手順を試しました
しかし、私のリスト変換では、出力を次のように取得しています
したがって、一部の行は完璧ですが、一部の行では、一意の ID が \t および \n を使用してムービー リストに追加されています。
以下の形式のリストが欲しい 9C05-EE9B44E8C18F c("Bruce Almighty","Iron Man","Toy Story")
このようにして、必要な結果を簡単に達成できると思います。あなたの助けを本当に感謝します.