Debian Squeeze を実行している VM に Pocketsphinx0.7 をインストールしています。これで問題なく動作し、ファイルから音声を認識できるようになりました。これを使用して、取得した一連のファイルを認識し、単語のエラー率を推定する Python スクリプトをいくつか作成しました。これらは、このチュートリアルで説明されているように gstreamer を使用します。
これまでのところ、ポケットフィンクスの tarball にあったオリジナルの hmm を使用しています。この辞書には、テスト データの単語と、教授から入手した最適化された言語モデルが含まれています。これは、実稼働システムでも実行されているため、機能するはずです。私の問題は、認識パフォーマンスがまだひどいことです。私の単語エラー (WER) 率は約 85% です。
私が知りたいのは、どうすれば WER を改善できるかということです。どのような手順を踏むことができますか?
発生し、おそらくパフォーマンスに影響を与えるもう 1 つのことは、全員が読み取り、書き込み、実行できるように hmm にアクセスできるようにしたにもかかわらず、ポケットフィンクスが hmm にアクセスする権限がないことを通知することです。
誰がこれがどこから来るのか考えていますか? どんな種類の助けにも感謝します。さらに情報が必要な場合は、お知らせください。
編集:
小さなテストセットを作成し、ポケットフィンクスを実行しました。これは、ファイルと結果を見つけることができる場所です。元のテスト セットからいくつかの例を示すことができました。ここで見つけることができます。
これらは最悪の例です。1 ~ 2 語の短い発話が適しています。申し訳ありませんが、これまで大きなテスト セットを作成できませんでした。時間は非常に限られています。