java - 文中の隣接する単語のトークンを作成する Java ベースのインテリジェントな単語トークナイザーはありますか?

Question

次のように、隣接する単語を持つ文をトークン化したい:

「これは、いわんとトークン化したサンプル文字列です。」

上記の例では、「samplestring」と「欲しいとトークン化」の2つの場合があり、隣接する単語が出現しています。これらの単語のトークンを作成する方法はありますか?

この文の理想的な出力は (1 行に 1 つのトークン): This is a sample string that I want to tokenize

score 1 · Accepted Answer

http://www.sil.org/linguistics/wordlists/englishのような単語リストを使用することをお勧めします。メモリが許せば、それをHashSetにパックし、関数contains（）を使用します（ハッシュ比較用に最適化）

まず、StringTokenizerを使用して文字列をトークン化します。トークンごとに、リストの単語で開始および/または終了するかどうかを確認します。そのリストの単語で開始および終了し、文字が残っていない場合は、必要に応じて元の文字列にスペースを挿入し、再度トークン化します。

1 に答える 1