1

StringToWordVectorを使用してフィルターのオプションを設定しようとしていますWordTokenizer。これが私のコードです:

StringToWordVector filter = new StringToWordVector();

//Tokenizer option (letter only)
String tokenizerOption[] = new String[2];
tokenizerOption[0] = "-tokenizer";
tokenizerOption[1] = "weka.core.tokenizers.WordTokenizer -delimiters \r\t\n .,;:\'\"()?!-><#$%&*+/@^_=[]{}|\\`~0123456789";
filter.setOptions(tokenizerOption);
filter.setInputFormat(data);

次に、フィルタリングされたインスタンスを ARFF に保存します。私はこのARFFを取得します:

@attribute '\n' numeric
@attribute ' ' numeric
@attribute ' a ' numeric

ご覧のとおり\n、スペースは区切り文字に含まれていません。それらを含む入手方法は?

4

1 に答える 1

3

私は答えを見つけました、以下の私のコードを見てください:

//Make a filter
StringToWordVector filter = new StringToWordVector();

//Make a tokenizer
WordTokenizer wt = new WordTokenizer();
String delimiters = " \r\t\n.,;:\'\"()?!-><#$\\%&*+/@^_=[]{}|`~0123456789";
wt.setDelimiters(delimiters);
filter.setTokenizer(wt);

//Inform filter about dataset
filter.setInputFormat(data);
于 2013-04-06T16:53:19.400 に答える