CMUdict は英語で機能しますが、別の言語でコンテンツの音節を数えたい場合はどうすればよいでしょうか?
3 に答える
これは言語によって異なります。これは明白な答えのように聞こえるかもしれませんが、すべて正書法がどのように設計されているかにかかっています。英語では、音節は単語の書き方とはほとんど無関係なので、辞書が必要になります。他の多くの言語はこのようなものです。
ただし、他の特定の言語 (韓国語、日本語のひらがな、カタカナ (漢字は除く) など) は、文字自体が音節または特定の数の音節と明らかに一致するように書かれています。その場合、それらの言語がどのように機能するかを知っていれば、理論的には Python を使用して文章を音節に分割できます。
それ以外の場合は、辞書、またはこれを処理する他の複雑なプラットフォームが必要になります。ぶらぶらしてnltk
、何が見つかるか見てみましょう。
一般的に、いいえ。一部の言語には存在する可能性がありますが、辞書がない場合は、それらの言語の言語構造に関する知識が必要になります。単語が音節に分割される方法は、言語によって異なります。
すべての言語で一般的な方法でこれを行うことはできません。言語によってテキストへのサウンドのレンダリングが異なるためです。
たとえば、ハンガリー語の「vagy」は、英語を話す人には 2 つの音節のように見えますが、1 つだけです。また、英語の「バイク」という単語は、他の多くの言語の話者によって自然に 2 音節として読まれます。
さらに、英語の場合、英語のスペルには非常に奇妙なバリエーションがあるため、とにかく辞書がないとこれを正確に行うことはできないでしょう。たとえば、「poet」の「oe」は 2 つの異なる音節として発音しますが、「does」では 1 つだけ発音します。これはおそらく他のいくつかの言語にも当てはまります。