次のように、隣接する単語を持つ文をトークン化したい:
「これは、いわんとトークン化したサンプル文字列です。」
上記の例では、「samplestring」と「欲しいとトークン化」の2つの場合があり、隣接する単語が出現しています。これらの単語のトークンを作成する方法はありますか?
この文の理想的な出力は (1 行に 1 つのトークン): This is a sample string that I want to tokenize
http://www.sil.org/linguistics/wordlists/englishのような単語リストを使用することをお勧めします。 メモリが許せば、それをHashSetにパックし、関数contains()を使用します(ハッシュ比較用に最適化)
まず、StringTokenizerを使用して文字列をトークン化します。トークンごとに、リストの単語で開始および/または終了するかどうかを確認します。そのリストの単語で開始および終了し、文字が残っていない場合は、必要に応じて元の文字列にスペースを挿入し、再度トークン化します。