JavaでPos Taggingの後に単語のリストがあります。指定したタグを持つ特定の単語を削除したいのですが、文字列トークナイザを使用してタグ付きの単語を削除するにはどうすればよいですか? to-PRPなど?およびタグ prp を持つすべての単語?
入力ファイル:
mike-NNS
Buses-NNP
Walk_VRB
to_PRP
. . . . . . . . . 等々
JavaでPos Taggingの後に単語のリストがあります。指定したタグを持つ特定の単語を削除したいのですが、文字列トークナイザを使用してタグ付きの単語を削除するにはどうすればよいですか? to-PRPなど?およびタグ prp を持つすべての単語?
入力ファイル:
mike-NNS
Buses-NNP
Walk_VRB
to_PRP
. . . . . . . . . 等々
final List<String> result = new ArrayList<String>();
final List<String> textList= getList(); // get your list
final StringTokenizer tokenizer =
new StringTokenizer(textList, delimiter); // your delimiter
while (tokenizer.hasMoreElements()) {
final String token = tokenizer.nextToken();
if (isValid(token)) { // implement your own isValid method
result.add(token);
}
}
return result;