apriori (サポート >= 0.01) および python の mlxtend パッケージを使用して association_rules 関数を 4.2L+ 行のトランザクション データ (スパース マトリックスの形式) に適用すると、頻出アイテム セットと関連付けルールの生成に時間がかかりすぎます。
サンプル トランザクション スパース マトリックス (pandas DataFrame)、MBA の入力データ:
Invoice no./ Products Shirt T-shirt Jeans Footwear
1 1 1 0 0
2 0 0 1 0
3 0 1 0 1
a) MBA を適用する前に、トランザクション データのスパース マトリックスの表現を最適化する方法はありますか?
b) トランザクションデータの代替の効率的な表現はありますか?