ひらがなとカタカナのチャートから、日本語のテキストをひらがなまたはカタカナに「正規化」できるはずです。テーブルを作成し、検索/置換用の辞書/正規表現テーブルを実装するのは非常に簡単です。すでに作業が完了した場所を知っている人はいますか?
4998 次
2 に答える
1
str.translate を使用すると、やりたいことをすばやく実行できます。
しかし、なぜそれをしたいのかはすぐにはわかりません。
ラテン語ベースのアルファベットで書かれた言語での正規化とは、小文字化、空白の正規化、アクセントの除去などを含むため、ASCII になります。これを行う目的は、表示ではなく、ある種のあいまい検索/一致/ルックアップ シナリオでユーザーが入力したテキストを比較することです。問題の言語のネイティブライターでも、アクセントの間違いなどはよくあることです。
日本語の書記体系でひらがなが果たす役割を考えると (言葉には漢字の語幹とひらがなの接尾辞があることがよくあります)、ひらがなをカタカナに変更する用途が想像できません...教えてください。
于 2011-02-02T22:49:23.467 に答える
1
なぜあなたはこれをしたいのですか?カタカナは伝統的に他の言語からの借用語に使用され、ひらがなは日本の母国語に使用されます。日本語のテキストを何らかの形式に正規化することで、実際にそれを読むのを妨げている可能性があります (正規化することで文脈が失われているため、少なくとも私にとっては難しいでしょう)。
しかし、あなたの質問への答えとして、これはあなたが求めていることをしているようです: JCONV
于 2011-02-02T16:46:19.830 に答える