私はRapidMinerを初めて使用します...私がしようとしているのは、ProcessDocuments Operator (サブタスク)-> Tokenize を使用してトークン化する 10 個のドキュメントのリストがあることです...結果は、 10 行の10 x 800 のサンプルセットです。 (ドキュメントごとに 1 つ) および 800 の属性 (トークンごとに 1 つ)。
ここで、800 個のトークンを長さでフィルター処理したいと思います。再び ProcessDocuments オペレーター (サブタスク) ->前の ProcessDocuments オペレーターによって生成されたワールドリストで FilterByLength を使用します...結果は 800 x 700 のマトリックスです... 800 個のトークンに対して 800以前の ProcessDocuments Operator と 700 の削減されたトークンのセット。
私が達成したいのは、Kmeans クラスタリング オペレーターに渡すことができる10 x 700 のサンプルセットです。どうやってやるの?
ありがとう