4

.NET 音声認識クラスを使用してアプリケーションを構築し、WAV ファイルを渡して、そのテキスト表現を作成することは可能ですか。たとえば、これは私がやろうとしていることです:

私のオフィスには QA 部門があり、1 日に何百件もの電話に耳を傾けなければなりませんが、これはまったく不可能なことです。私がやりたいことは、オーディオ ファイルをサーバーにアップロードし、サーバーにそれを解析させてトランスクリプトを作成させることです。完璧でなくてもかまいませんが、2 時間の録音を聞くよりも数十行のテキストをざっと目を通しておいた方が簡単なベースにすぎません。

保存されたトランスクリプトに基づいて、データベース内で全文検索を実装できます。また、誰かが間違った表現を言っている場合は、トランスクリプトに対してチェックを実行することもできます。

では、.NET 音声認識クラスを使用してアプリケーションを作成し、それに WAV ファイルを渡すだけで大まかなトランスクリプトを出力することは可能ですか?

アイデアを考えている間、Speech クラスで MSDN を簡単に掘り下げました。

可能であれば、C# での例を教えていただければ幸いです。トピック1055347は、私が抱えている質問に似ており、リンクが提供されました。その中で最も具体的なのは C++ です。私は C++ の開発者ではありませんし、プログラミングのために学校に通ったこともありません。C# については独学なので、自分が知っている言語にとどまりたいと思っています。

前もって感謝します!

4

4 に答える 4

2

これは、コール センター タイプのアプリケーションを持っているように思えます。 Microsoft Speech Serverには、テレフォニー (8000 Hz のサンプル レート) 用に最適化された SR エンジンがあり、デスクトップ SR エンジンよりもはるかに優れた認識を生成します。ただし、このエンジンは実際には文字起こし用に設計されているわけではありません (文字起こしは可能ですが)。さらに処理を行う前に文字起こしを確認する必要があります。Microsoft Exchange ユニファイド コミュニケーションは、SR エンジンを使用してボイス メールのトランスクリプトを生成します。何もないよりはましですが、多くの場合、おかしなナンセンスが生成されます。

于 2009-11-20T23:00:10.407 に答える
0

通話をGoogleVoiceにルーティングするのはどうですか。同様のサービスがあると確信しています。私はこれまでのところその正確さに驚いています。さらに、必要に応じてクリックして聞くことができます。Google Voiceは、音声通話をSMSまたはメールに転送します。

更新:再読込時に、おそらくあなたが通話を録音しているので、私が残した音声メッセージのようにそれは機能しません。

于 2009-11-29T17:50:40.440 に答える
0

はい。

私は数年前に Tablet PC でこのようなアプリケーションを作成しました。これについては、 http://web.archive.org/web/20060615192119/www.devx.com/TabletPC/Article/30761で読むことができます(当時、Interop を使用してライブラリにアクセスすることについて話しましたが、マネージド ラッパーを使用するだけで、プログラミング モデルは同じままです。)

当時、結果は非常に貧弱でしたが、ユースケースにとっては何もないよりはましかもしれません.

于 2009-11-20T20:06:45.203 に答える
0

音声認識のような分野では、スタンドアロンの EXE または c/c++ の API を見つける可能性があります。

他のトピックのリンクについては、 P Interop Assistantなどのツールを使用してC# コードを生成できます。C# コードはアンマネージ dll のラッパーのように機能するため、C# から呼び出すことができます。

これは、探している機能を取得するための最良の方法である可能性があります。

于 2009-11-20T19:53:12.437 に答える