WMA 形式のスピーチ オーディオがたくさんあるので、それを機械で文字起こししたいと考えています。文字起こしが 100% 正確でなくても、一部のオーディオの「インデックス」としてかなり役立つと思います。 . これを実現するためのコードを書きたいのですが、Microsoft の Speech API は役に立ちますか? 私のためにこれを行うことができるアプリはすでにありますか?
質問する
4336 次
2 に答える
0
SAPIは確かにあなたが望むことをすることができます. インプロセス レコグナイザーから始めて、オーディオをファイル ストリームとして接続します (SAPI は WAV 入力のみを受け取るため、おそらく WMA ファイルを WAV ストリームにトランスコードする必要がありますが、その場でトランスコーディングを行うことができます)。口述モードを設定して、すぐに始められます。
今がっかりしました。おそらく、それほど良い結果は得られないでしょう。実際、よほど運が良くない限り、完全なごみを手に入れることになるのではないかと思います。
いくつかの問題があります:
- ディクテーションは、SR エンジンがトレーニングされて初めてうまく機能します。運が良ければ (私のように) OK の結果が得られますが、話者に訛りがある場合はトレーニングが必要です。
- トレーニングは単一の声に対してのみ有効です。1 つのオーディオ ファイルに複数のスピーカーがある場合、うまく機能しません。
- ディクテーション (および一般的な音声認識) のオーディオ モデルでは、接話マイク (つまり、ノイズの拾い込みを最小限に抑えるために顔のすぐ横にマイクを配置) を使用していることを前提としています。WMA ファイルに余分なノイズが含まれていると、精度が大幅に低下します。
実際には、Dragon Naturally Speaking Professional を使用することをお勧めします。彼らは文字起こしを機能させるために時間とお金を費やしてきました。私はそれを自分で使用したことがないので、あなたの状況でどれだけうまくいくかわかりません.
于 2009-11-03T04:52:41.263 に答える
-1
これを実現するには、口述ソフトウェアのような適切なプログラムが必要です。Speech API は逆です。これは非常に複雑なソフトウェアであるため、これに対するオープンソースもあるとは思いません。
于 2009-09-30T18:38:03.183 に答える