私は少し応用したいと思っています.SDKを使用した優れた話者依存の音声認識エンジンを知っている人はいますか. (音声からテキストへのエンジンではありません)
ありがとうございました、
エフラット
私は少し応用したいと思っています.SDKを使用した優れた話者依存の音声認識エンジンを知っている人はいますか. (音声からテキストへのエンジンではありません)
ありがとうございました、
エフラット
私は sphinx-4 を使用して 82.25% の精度に達しました。95%以上に増やす方法を考えています。私は 1 人の声だけを書き起こしているので、話者依存システムが役立つなら、それは素晴らしいことです。語彙は約40,000語です。私はデュアル コア システムを使用しており、sphinx-train と sphinx4 デコーダーを簡単に実行できましたが、トレーナーは 40 時間のオーディオをトレーニングするのに 1 日かかり、デコーダーはリアルタイムです。
精度を上げるために利用できる製品/オープンソース ライブラリがあるかどうかを知りたいです。
ありがとう、ダラニ
Sphinxは、おそらくあなたが探しているものに沿っているでしょう。これはオープンソースの音声認識プラットフォームであり、カーネギーメロン大学で進行中のプロジェクトです。
スピーカーに依存するエンジンがあり、それらは携帯電話の割り当てのように、より原始的です。テキストに変換しようとせず、信号の比較を行うだけです。そしてそれは私が必要とするものです。
詳しく教えてください。どのプラットフォーム?語彙のサイズは?パフォーマンスの制約は? 連続?半連続?「音声からテキストへのエンジンではない」とはどういう意味ですか?
シンプルで小さいものが必要な場合は、C で書かれたEARSを試してみてください。あまり大きくないので、おそらく初心者に適しています。