StringToWordVector
を使用してフィルターのオプションを設定しようとしていますWordTokenizer
。これが私のコードです:
StringToWordVector filter = new StringToWordVector();
//Tokenizer option (letter only)
String tokenizerOption[] = new String[2];
tokenizerOption[0] = "-tokenizer";
tokenizerOption[1] = "weka.core.tokenizers.WordTokenizer -delimiters \r\t\n .,;:\'\"()?!-><#$%&*+/@^_=[]{}|\\`~0123456789";
filter.setOptions(tokenizerOption);
filter.setInputFormat(data);
次に、フィルタリングされたインスタンスを ARFF に保存します。私はこのARFFを取得します:
@attribute '\n' numeric
@attribute ' ' numeric
@attribute ' a ' numeric
ご覧のとおり\n
、スペースは区切り文字に含まれていません。それらを含む入手方法は?