python - 空白区切り文字のない連続した単語をトークン化する方法は?

Question

nltk で Python を使用しています。空白のない英語のテキストを処理する必要がありますが、nltk の word_tokenize 関数ではこのような問題に対処できませんでした。では、空白なしでテキストをトークン化する方法。Python にツールはありますか?

score 2 · Accepted Answer

そのようなツールについては知りませんが、問題の解決策は言語によって異なります。

トルコ語の場合、入力テキストを 1 文字ずつスキャンし、文字を単語に蓄積できます。蓄積された単語が辞書からの有効な単語を構成していることを確認したら、それを別のトークンとして保存し、新しい単語を蓄積するためのバッファーを消去して、プロセスを続行します。

英語でこれを試すことができますが、ある単語の終わりが辞書の単語の始まりである場合があり、これが問題を引き起こす可能性があると思います.

2 に答える 2