1

アルゴリズムのパフォーマンスを既存のものと比較するために、アソシエーション ルール マイニング用の合成データセットを生成する必要があります。IBM Quest Data generator をダウンロードしましたが、論文で使用されているのと同じパラメーターを使用してデータセットを生成する方法がわかりません。たとえば、T40I10D100K.dat T40I10D1000K.dat、T10I4D100K.dat T25I10D10k.data データセットを生成する方法は? T、I、D とは何を意味し、ジェネレーターを使用するときにこれらのパラメーターを設定する方法を教えてください。

ヘルプは次のように出力します。

hduser@master:~$ ./gen lit -help 
Command Line Options:
-ntrans number_of_transactions (in 1000's) (default: 1000)
  -tlen avg_items_per_transaction (default: 10)
  -nitems number_of_different_items (in '000s) (default: 100000)
  -npats number_of_patterns (default: 10000)
  -patlen avg_length_of_maximal_pattern (default: 4)
  -corr correlation_between_patterns (default: 0.25)
  -conf avg_confidence_in_a_rule (default: 0.75)
  -fname <filename> (write to filename.data and filename.pat)
  -ascii (default: False)

  -randseed # (reset seed used generate to x-acts; must be negative)
  -version (to print out version info)
4

1 に答える 1