0

アソシエーション アルゴリズム (Apriori) を使用したいのですが、私のレコードには任意のタグが付けられています。

  ...other stuff...,"tag1,tag2,tag4"
  ...other stuff...,"tag1,tag2,tag5"
  ...other stuff...,"tag1,tag3,tag5"

つまり、コンマで区切られたタグのリストが、引用符で囲まれたテキスト フィールドとして各レコードの最後に詰め込まれます。

これを Pentaho Kettle の ARFF プラグインで実行すると、この列の出力は「公称」となり、タグの各組み合わせが個別の値になります。

適切なことは、各タグをブール値として処理して、他のタグから独立した独自の個別の値を持つことができるようにすることです。

これを達成する最も簡単な方法は何ですか?

4

1 に答える 1

0

Weka が提供する"NominalToBinary"というフィルターがあります。その目的は、やや明白ですが、名義属性をバイナリに変換することです。 このフィルターの詳細については、こちらをご覧ください。

関連するオプションのいくつかは次のとおりです。

  1. フィルタを適用する属性を選択します。

  2. 新しいバイナリ属性を名義または数値として扱うかどうかを選択します。

于 2013-11-02T13:26:52.650 に答える