問題タブ [phoneme]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - Android、フランス語で音素認識を使用した Pocketsphinx の認識精度が低い
Pocketsphinx の音声機能を Android アプリケーションに統合する必要があるプロジェクトに取り組んでいます。実際、フランス語の音素を認識できる Pocketpshinx が提供する音素認識機能を統合する必要があります。たとえば、音声認識エンジンは音節 (「de」、「re」、「se」など) を認識できる必要があります。 )、子音(「m」、「f」、「g」など)、二重子音(「kl」、「ks」、「gr」など)、母音(「a」、「o」など) 、「e」など)。現在、上記の音素を認識するために Pocketsphinx を統合しましたが、非常に悪い結果が得られました。たとえば、「o」を発音すると、「SIL ff ei au」と認識されることがあります。(私は文字「f」と「e」をまったく発音していませんでした)、または発音されていない何かが最初に表示されます。最初に出てくる文字はいつも同じとは限りません(「ll」や「uu」などになることもあります)。しかし、私が発音する文字が最初に現れることがあります (たとえば、"a" の場合、"SIL aa SIL" となります) が、これはめったに起こりません。では、何が問題なのか、この問題を解決するための提案を教えてください。これらの気になる文字だけで言語モデルと辞書を作成する必要がありますか(文字数が決まっているため)?それとも、音響モデルを適応させるか、音響モデルをトレーニングする必要があるのでしょうか? または、発音されていない他の何かが最初に表示されます。最初に出てくる文字はいつも同じとは限りません(「ll」や「uu」などになることもあります)。しかし、私が発音する文字が最初に現れることがあります (たとえば、"a" の場合、"SIL aa SIL" となります) が、これはめったに起こりません。では、何が問題なのか、この問題を解決するための提案を教えてください。これらの気になる文字だけで言語モデルと辞書を作成する必要がありますか(文字数が決まっているため)?それとも、音響モデルを適応させるか、音響モデルをトレーニングする必要があるのでしょうか? または、発音されていない他の何かが最初に表示されます。最初に出てくる文字はいつも同じとは限りません(「ll」や「uu」などになることもあります)。しかし、私が発音する文字が最初に現れることがあります (たとえば、"a" の場合、"SIL aa SIL" となります) が、これはめったに起こりません。では、何が問題なのか、この問題を解決するための提案を教えてください。これらの気になる文字だけで言語モデルと辞書を作成する必要がありますか(文字数が決まっているため)?それとも、音響モデルを適応させるか、音響モデルをトレーニングする必要があるのでしょうか? 何が問題なのか、この問題を解決するための提案を教えてください。これらの気になる文字だけで言語モデルと辞書を作成する必要がありますか(文字数が決まっているため)?それとも、音響モデルを適応させるか、音響モデルをトレーニングする必要があるのでしょうか? 何が問題なのか、この問題を解決するための提案を教えてください。これらの気になる文字だけで言語モデルと辞書を作成する必要がありますか(文字数が決まっているため)?それとも、音響モデルを適応させるか、音響モデルをトレーニングする必要があるのでしょうか?
事前にどうもありがとうございました!
nlp - テキストを音素に変換する方法
単語をそれぞれの音素に変換できるプログラムはありますか? 一貫性があり、再現可能である限り、どの構文/形式が使用されているかは問題ではありません。変換するデータはたくさんありますが、CMU のテキストから Arpabet へのコンバーターはそのうちの約 100 個しか変換できませんでした。「espeak [word] -x」を実行してespeakのコードを取得しようとしましたが、プログラムが単語を出力するのを待たなければなりませんでした。また、データを実行しているクラスターに espeak をインストールできません。
cmusphinx - コマンドを使用する代わりに、get audio phonemes をプログラムで呼び出すことはできますか
音素を抽出するために pocketphinx コマンドを使用しましたが、正常に動作しています
しかし今、私はプログラムでそれをやりたいと思っています。上記のコマンドを使用するには、「pocketsphinx\bin\Release\Win32」に移動して、コマンドを実行する必要があります。「pocketsphinx\bin\Release\Win32」フォルダーに移動せずにプログラムでこれを行うことは可能ですか?
また、この機能は「pocketsphinx.js」で利用できますか?