data-mining - Weka Apriori の入力 arff ファイル

Question

バージョン履歴でアソシエーションマイニングを実行しようとしています。mysql にトランザクションデータがあります。Weka apriori アルゴリズムには、特定の形式の arff または csv ファイルが必要です。項目ごとに列が必要です。値は、トランザクション内の各アイテムに対して TRUE または FALSE として指定されます。Weka InstanceQuery を使用してこのファイルを作成する方法を探しています。また、トランザクションデータが膨大な場合のオプションは何ですか。

score 1 · Accepted Answer

2 番目の部分についてはお答えできます。トランザクションデータが膨大な場合のオプションです。Weka は優れたソフトウェアですが、アプリオリな実装は非常に遅いです。http://fimi.ua.ac.be/src/での実装をお勧めします(Ferenc Bodon のリストの最初のものを使用しました)。

Bodon の実装では、Weka が使用するハッシュテーブルの代わりに Trie データ構造を使用します。このため、私は自分の仕事で、Bodon の実装が 1 時間以内に完了するのに Weka は 3 日かかることを発見しました (そうです、違いはこれほど大きいです!!)。

さらに、Bodon の実装では単純な入力形式が使用されています。つまり、トランザクションごとに 1 行で、アイテムはスペースで区切られています。

score 0 · Accepted Answer

FPGrowth または Apriori の高速な Java 実装が必要な場合は、私のプロジェクト SPMF をご覧ください。SPMF での FPGrowth の実装は、一部のデータセットで Weka の実装を最大 2 桁上回っています。たとえば、次のパフォーマンス比較を確認できます。

http://www.philippe-fournier-viger.com/spmf/performance/chess_fpgrowth_spmf_vs_weka.png

これはメインプロジェクトの Web ページです。

http://www.philippe-fournier-viger.com/spmf/index.php

さらに、SPMF は、アイテムセットマイニング、アソシエーションルールマイニング、シーケンシャルパターンマイニングなどに 50 以上のアルゴリズムを提供することに注意してください。また、SPMF の GUI バージョンは、Weka で使用される ARFF 形式もサポートしています。

data-mining - Weka Apriori の入力 arff ファイル

2 に答える 2

Related

Reference