4

私は、その言語で書かれた大量のテキストを使用して、さまざまな言語の辞書を作成することを含む、ちょっとした趣味の Python プロジェクトに取り組んでいます。ほとんどの言語では、単語間のスペース区切り文字を使用して段落を辞書用の単語にトークン化できるため、これは比較的簡単ですが、たとえば、中国語では単語間にスペース文字を使用しません。中国語のテキストの段落を単語にトークン化するにはどうすればよいですか?

私の検索では、これはやや複雑な問題であることがわかったので、API または他の言語を介して Python や他の場所でこれを解決するための既製のソリューションがあるかどうか疑問に思っています。アジア言語用に作成された検索エンジンは、関連する結果を提供するためにこの問題を克服する必要があるため、これは一般的な問題であるに違いありません。

Google を使用して検索しようとしましたが、このタイプのトークン化が何と呼ばれているのかさえわからないため、結果は何も見つかりません。たぶん、正しい方向に微調整するだけで役立つでしょう。

4

1 に答える 1

4

言語のトークン化は、自然言語処理 (NLP) の重要な側面です。これは大企業や大学にとって大きなトピックであり、数多くの博士論文の主題となっています。

「nlp」タグを追加するために、質問に編集を送信しました。「nlp」タグの「about」ページをご覧になることをお勧めします。Python ベースのトークナイザーを含む Natural Language Tool Kitなどのサイトへのリンクがあります。

「言語のトークン化」や NLP などの用語で Google を検索することもできます。

于 2012-05-23T21:58:13.527 に答える