speech-recognition - カスタム・モデルを使用した Watson Speech-to-text の精度が低い

Question

Watson 会話サービスは私のアクセントを認識しませんでした。そのため、カスタムモデルを使用しました。カスタムモデルを使用する前と使用した後の結果を次に示します。

試験結果

モデルを統合する前に:- 彼らが持っているモットーがある場合。シーラ。その中でもジャバ。女性。。

モデルを統合した後:- Omatta David を提供します。スリランカ。その中でもジャバ。番号。政府

実際の音声- Audio 49,Wijayaba Mawatha,Kalubowila,Dehiwela,Sri Lanka.Government.Gov.

カスタムモデルをどのように含めたか- github からフォークされたデモで指定された同じファイルを使用しました socket.js に、図に示すようにカスタマイズ ID を含めました。カスタムモデルを含める他の方法(カスタムモデルを統合する方法) ）しかし、私が行った方法が正しいかどうか知りたいですか？

カスタムモデルの作成に使用した Python コードを次に示します。コードリンク

これは、JSON 形式で Python コードを実行した後のコーパス結果です。コーパスファイル

これは、スリランカのすべての道路を含めたカスタムモデル(コードに含まれていたカスタムモデルテキストファイル)です。

ファイルをフォークし、socket.js を次のように編集しました。

score 2 · Accepted Answer

私が目にする主な問題は、音声が非常にうるさいことです (背景に電車の線路が聞こえます)。2 つ目の問題は、コーパスから抽出された OOV 単語の発音の正確性をチェックする必要があることです。3 番目の問題は、話者のアクセントの問題 (米国英語モデルを使用していると仮定します) であり、英語のアクセントに問題がある可能性があります。カスタムモデルのトレーニングデータに関しては、トレーニングデータ内のいくつかの単語を繰り返してみることができます (新しい単語に重みを与えるため)。

トニー・リー IBM スピーチ・チーム

score 2 · Accepted Answer

まず、何かが抜けていない限り、あなたが言った単語のいくつかは実際には corpus1.txt ファイルに表示されません。明らかに、サービスは、書き起こしが期待される単語を認識する必要があります。

次に、このサービスは、より一般的な発話パターンを対象としています。コンテキストに基づいて単語を推測できないため、任意の名前のリストは困難です。これは通常、カスタムコーパスが提供するものですが、この場合は機能しません (コーパスに表示される正確な順序で名前を読む場合を除きます。その場合でも、名前は 1 回だけ表示され、コンテキストなしで表示されます)。サービスはすでに認識します。)

sounds_likeこれを補うために、カスタム単語のコーパスに加えて、発音を示すためにそれらの多くにを提供する必要がある場合があります: http://www.ibm.com/watson/developercloud/doc/speech-to-text/ custom.shtml#addWords

これはかなり手間がかかります (サービスが正しく認識しない単語ごとに実行する必要があります) が、結果は改善されるはずです。

第 3 に、提供されたオーディオファイルにはかなりの量のバックグラウンドノイズが含まれているため、結果が劣化します。より良いマイク/録音場所/その他。役立ちます。

最後に、より明確に、正確な口述筆記で、できるだけ「標準的な」アメリカ英語のアクセントに近づけることも、結果の改善に役立ちます。

speech-recognition - カスタム・モデルを使用した Watson Speech-to-text の精度が低い

試験結果

2 に答える 2

Related

Reference