文字列を発音できるかどうか、またはスペルアウトする必要があるかどうかをプログラムで確認したいと思います。
たとえば、internationalization
読み取ることはできますが、読み取ることはi18n
できませんhhdirgxzf
。
文字列にアルファ文字以外の文字が含まれているかどうかを確認するなど、いくつかの単純なヒューリスティックを考えることができますが、それを行うためのより堅牢で科学的な方法があることを願っています。発音のしやすさに基づいて文字列をスコアリングできるアルゴリズムアプローチはありますか?
関連:単語の発音の難しさをランク付けする方法はありますか?、しかし、私はリストを持っておらず、事前計算することはできません。
コメントに基づいて更新します。
- 私は英語を話すので英語に興味がありますが、特定の言語の特性ではなく、音と話し方に基づいたアルゴリズムを想像することができました。
- 発音とは、文字列を自然に読み上げることができ、発音は可能
hhdirgxzf
ですが、1つの自然言語の単語に聞こえないため、分割する必要があることを意味します。 - 私が念頭に置いている特定のユースケースは、文字列が送信される場合であり、基本的なテキスト読み上げシステムを使用して文字列を読み上げたいと考えています。文字列内のどのトークンをTTSシステムに発音させ、どのトークンをスペルアウトさせるかを決定したいのですが、自信がない場合はスペルアウトの側で誤りがあります。