1

私は RapidMiner の使用法を学ぼうとしていますが、上司は一連のデータに対してマーケット バスケット分析を実行するよう求めています。しかし、指定されたテンプレートを使用すると、次のエラーが発生します。

通常の属性は二項型でなければなりません。
これは FP-Growth 演算子で与えられます。

customerID (数値のみ)、productName(文字)、および Product Quantity (数値) 列があります。

私はRMの初心者なので、何が悪いのかわかりません。

任意の入力をいただければ幸いです。
前もって感謝します。

4

2 に答える 2

2

FP-Growth は、すべての通常の属性が二項である入力として ExampleSet を必要とします。これは、この場合ブール値を意味します。二項属性には、定義済みの正/真および負/偽の値がある場合があります。それ以外の場合は、正の値を FP-Growth オペレーターのパラメーターとして指定できます。さらに、すべての例はトランザクション (または顧客のバスケット) を表し、すべての属性は完全な製品ラインのアイテムを表し、この属性の値はアイテムがバスケットにあるかどうかを定義します。

アソシエーション ルールを見つけるには、最初に頻度の高い項目セットを見つける必要があります。これは、FP-Growth オペレーターの仕事です。あなたの仕事は、ExampleSet を「トランザクション データベース」に変換することです。つまり、すべての属性は 2 項です。

残念ながら、RapidMiner のテンプレートには少しバグがあります。プロセスを修正するには、FP-Growth オペレーターの前に 2 つのオペレーターを追加する必要があります。まず、すべての欠損値を値 0 に置き換える必要があります (オペレータ '欠損値の置換' およびパラメータ 'default' をゼロに)。置換後、「数値から二項へ」演算子が必要です。デフォルトのパラメーター値は、すべての属性を 2 項属性に変換するのに十分です。プロセスはすぐに実行されます。頻繁に使用されるアイテムセットを見つけるには、十分な小さな min-support が必要であることに注意してください。

于 2012-05-09T12:22:32.610 に答える
0

データを、顧客 (実際にはトランザクション) ごとに 1 つの行と、製品ごとに 1 つの数量列 (おそらくバイナリ) を持つ形式に変換 (折りたたむ) する必要があるでしょう。スパース ベクトルを使用して、すべての を保存して保存します0

于 2012-03-07T08:40:30.857 に答える