5

Debian Squeeze を実行している VM に Pocketsphinx0.7 をインストールしています。これで問題なく動作し、ファイルから音声を認識できるようになりました。これを使用して、取得した一連のファイルを認識し、単語のエラー率を推定する Python スクリプトをいくつか作成しました。これらは、このチュートリアルで説明されているように gstreamer を使用します。

これまでのところ、ポケットフィンクスの tarball にあったオリジナルの hmm を使用しています。この辞書には、テスト データの単語と、教授から入手した最適化された言語モデルが含まれています。これは、実稼働システムでも実行されているため、機能するはずです。私の問題は、認識パフォーマンスがまだひどいことです。私の単語エラー (WER) 率は約 85% です。

私が知りたいのは、どうすれば WER を改善できるかということです。どのような手順を踏むことができますか?

発生し、おそらくパフォーマンスに影響を与えるもう 1 つのことは、全員が読み取り、書き込み、実行できるように hmm にアクセスできるようにしたにもかかわらず、ポケットフィンクスが hmm にアクセスする権限がないことを通知することです。

誰がこれがどこから来るのか考えていますか? どんな種類の助けにも感謝します。さらに情報が必要な場合は、お知らせください。


編集:

小さなテストセットを作成し、ポケットフィンクスを実行しました。これは、ファイルと結果を見つけることができる場所です。元のテスト セットからいくつかの例を示すことができました。ここで見つけることができます。
これらは最悪の例です。1 ~ 2 語の短い発話が適しています。申し訳ありませんが、これまで大きなテスト セットを作成できませんでした。時間は非常に限られています。

4

1 に答える 1

2

私が知りたいのは、どうすれば WER を改善できるかということです。どのような手順を踏むことができますか?

この問題は、Pocketsphinx の FAQ で説明されています。

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

最初のステップは、テスト サンプルのデータベースを収集することです。

精度を向上させるために助けが必要な場合は、そのデータベースと探している結果、および実際の結果を共有する必要があります。ここまたは Sourceforge フォーラムで共有できます。すべてのファイルをアーカイブにパックして、どこかにアップロードする必要があります。次に、ここにリンクを提供できます。

詳細については、

http://cmusphinx.sourceforge.net/wiki/communicate

于 2012-06-30T12:10:10.567 に答える