文字列を ngram にトークン化しようとしています。不思議なことに、NGramTokenizerのドキュメントには、トークン化された個々の ngram を返すメソッドがありません。実際、NGramTokenizer クラスには、String オブジェクトを返すメソッドが 2 つしかありません。
これが私が持っているコードです:
Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
- トークン化された ngram はどこにありますか?
- 文字列/単語で出力を取得するにはどうすればよいですか?
出力を次のようにしたい: This, is, a, test, string, This is, is a, a test, test string, This is a, is a test, a test string.