アソシエーション アルゴリズム (Apriori) を使用したいのですが、私のレコードには任意のタグが付けられています。
...other stuff...,"tag1,tag2,tag4"
...other stuff...,"tag1,tag2,tag5"
...other stuff...,"tag1,tag3,tag5"
つまり、コンマで区切られたタグのリストが、引用符で囲まれたテキスト フィールドとして各レコードの最後に詰め込まれます。
これを Pentaho Kettle の ARFF プラグインで実行すると、この列の出力は「公称」となり、タグの各組み合わせが個別の値になります。
適切なことは、各タグをブール値として処理して、他のタグから独立した独自の個別の値を持つことができるようにすることです。
これを達成する最も簡単な方法は何ですか?