weka - WEKA WordTokenizer の区切り文字オプション

Question

StringToWordVectorを使用してフィルターのオプションを設定しようとしていますWordTokenizer。これが私のコードです：

StringToWordVector filter = new StringToWordVector();

//Tokenizer option (letter only)
String tokenizerOption[] = new String[2];
tokenizerOption[0] = "-tokenizer";
tokenizerOption[1] = "weka.core.tokenizers.WordTokenizer -delimiters \r\t\n .,;:\'\"()?!-><#$%&*+/@^_=[]{}|\\`~0123456789";
filter.setOptions(tokenizerOption);
filter.setInputFormat(data);

次に、フィルタリングされたインスタンスを ARFF に保存します。私はこのARFFを取得します:

@attribute '\n' numeric
@attribute ' ' numeric
@attribute ' a ' numeric

ご覧のとおり\n、スペースは区切り文字に含まれていません。それらを含む入手方法は？

score 3 · Accepted Answer

私は答えを見つけました、以下の私のコードを見てください：

//Make a filter
StringToWordVector filter = new StringToWordVector();

//Make a tokenizer
WordTokenizer wt = new WordTokenizer();
String delimiters = " \r\t\n.,;:\'\"()?!-><#$\\%&*+/@^_=[]{}|`~0123456789";
wt.setDelimiters(delimiters);
filter.setTokenizer(wt);

//Inform filter about dataset
filter.setInputFormat(data);

weka - WEKA WordTokenizer の区切り文字オ​​プション

1 に答える 1

Related

Reference

weka - WEKA WordTokenizer の区切り文字オプション