3

私の仕事は、人間からの直接話法ではなく、音声ファイルをテキストに変換することです。

たとえば、wavファイルに「Hellothere」ストアがある場合、それをテキストに転記し、画面に「Hellothere」文字列を表示します。

優先されるが優先される言語コードはC#です。

4

1 に答える 1

3

SAPIは確かにあなたが望むことをすることができます。インプロセスレコグナイザーから始めて、オーディオをファイルストリームとして接続し、ディクテーションモードを設定して、次に進みます。

今、残念なビット。おそらく、ひどく良い結果は得られないでしょう。実際、あなたが非常に幸運でない限り、あなたはおそらく完全なゴミを手に入れるだろうと私は思う。

いくつかの問題があります:

  1. ディクテーションは、SRエンジンがトレーニングされて初めて実際にうまく機能します。運が良ければ(私のように)OKの結果を得ることができますが、話者にアクセントがある場合は、トレーニングが必要です。
  2. トレーニングは、単一の音声に対してのみ適切に機能します。1つのオーディオファイルに複数のスピーカーがある場合、うまく機能しません。
  3. ディクテーション(および一般的な音声認識)のオーディオモデルは、クローズトークマイク(つまり、ノイズピックアップを最小限に抑えるために顔のすぐ隣にあるマイク)を使用していることを前提としています。WAVファイルに余分なノイズがあると、精度が大幅に低下します。

Dragon Naturally Speaking Professionalは文字起こしをサポートしていますが、それでもトレーニングと単一の音声が必要です。(DNSにはボイスレコーダーに適したカスタムオーディオモデルがあると思います。)私はそれを自分で使用したことがないので、あなたの状況でどれだけうまく機能するかわかりません。

さて、あなたが特定のキーワードを探しているなら、他の人々は「オーディオマイニング」を使って成功しています-オーディオストリームで特定のキーワードを探しているレコグナイザーを実行します

于 2009-11-24T19:16:54.630 に答える