weka でラベルのない arff テキスト ドキュメントを作成する方法がわかりません。現在、作成したモデルに基づいて分類するために、ディスクからラベルのない txt ドキュメントを読み取ろうとしています。ただし、テキストドキュメントをarffに変換するには、現在使用しています
java weka.core.converters.TextDirectoryLoader
これにより、ドキュメントにクラス ラベルが効果的に割り当てられます。
したがって、代わりにarffがラベル付けされます。私のテキストファイルは任意の長さになります。
ウィキスペースで例を確認しましたが、ラベルのないarffをロードするだけで、作成方法を説明していないようです。
例
Test.txt
私は長い長い長い紐を持っています
このコードunlabeled.arffで使用するために、これを arff 形式に変換するにはどうすればよいですか
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileReader;
import java.io.FileWriter;
import weka.core.Instances;
...
// load unlabeled data
Instances unlabeled = new Instances(
new BufferedReader(
new FileReader("/some/where/unlabeled.arff")));
// set class attribute
unlabeled.setClassIndex(unlabeled.numAttributes() - 1);
// create copy
Instances labeled = new Instances(unlabeled);
// label instances
for (int i = 0; i < unlabeled.numInstances(); i++) {
double clsLabel = tree.classifyInstance(unlabeled.instance(i));
labeled.instance(i).setClassValue(clsLabel);
}
// save labeled data
BufferedWriter writer = new BufferedWriter(
new FileWriter("/some/where/labeled.arff"));
writer.write(labeled.toString());
writer.newLine();
writer.flush();
writer.close();
このコードは、weka wiki スペースの例から取得されます