私は、その言語で書かれた大量のテキストを使用して、さまざまな言語の辞書を作成することを含む、ちょっとした趣味の Python プロジェクトに取り組んでいます。ほとんどの言語では、単語間のスペース区切り文字を使用して段落を辞書用の単語にトークン化できるため、これは比較的簡単ですが、たとえば、中国語では単語間にスペース文字を使用しません。中国語のテキストの段落を単語にトークン化するにはどうすればよいですか?
私の検索では、これはやや複雑な問題であることがわかったので、API または他の言語を介して Python や他の場所でこれを解決するための既製のソリューションがあるかどうか疑問に思っています。アジア言語用に作成された検索エンジンは、関連する結果を提供するためにこの問題を克服する必要があるため、これは一般的な問題であるに違いありません。
Google を使用して検索しようとしましたが、このタイプのトークン化が何と呼ばれているのかさえわからないため、結果は何も見つかりません。たぶん、正しい方向に微調整するだけで役立つでしょう。