c# - .NET の音声認識クラスに関する質問

Question

.NET 音声認識クラスを使用してアプリケーションを構築し、WAV ファイルを渡して、そのテキスト表現を作成することは可能ですか。たとえば、これは私がやろうとしていることです：

私のオフィスには QA 部門があり、1 日に何百件もの電話に耳を傾けなければなりませんが、これはまったく不可能なことです。私がやりたいことは、オーディオファイルをサーバーにアップロードし、サーバーにそれを解析させてトランスクリプトを作成させることです。完璧でなくてもかまいませんが、2 時間の録音を聞くよりも数十行のテキストをざっと目を通しておいた方が簡単なベースにすぎません。

保存されたトランスクリプトに基づいて、データベース内で全文検索を実装できます。また、誰かが間違った表現を言っている場合は、トランスクリプトに対してチェックを実行することもできます。

では、.NET 音声認識クラスを使用してアプリケーションを作成し、それに WAV ファイルを渡すだけで大まかなトランスクリプトを出力することは可能ですか?

アイデアを考えている間、Speech クラスで MSDN を簡単に掘り下げました。

可能であれば、C# での例を教えていただければ幸いです。トピック1055347は、私が抱えている質問に似ており、リンクが提供されました。その中で最も具体的なのは C++ です。私は C++ の開発者ではありませんし、プログラミングのために学校に通ったこともありません。C# については独学なので、自分が知っている言語にとどまりたいと思っています。

前もって感謝します！

score 2 · Accepted Answer

これは、コールセンタータイプのアプリケーションを持っているように思えます。 Microsoft Speech Serverには、テレフォニー (8000 Hz のサンプルレート) 用に最適化された SR エンジンがあり、デスクトップ SR エンジンよりもはるかに優れた認識を生成します。ただし、このエンジンは実際には文字起こし用に設計されているわけではありません (文字起こしは可能ですが)。さらに処理を行う前に文字起こしを確認する必要があります。Microsoft Exchange ユニファイドコミュニケーションは、SR エンジンを使用してボイスメールのトランスクリプトを生成します。何もないよりはましですが、多くの場合、おかしなナンセンスが生成されます。

score 0 · Accepted Answer

通話をGoogleVoiceにルーティングするのはどうですか。同様のサービスがあると確信しています。私はこれまでのところその正確さに驚いています。さらに、必要に応じてクリックして聞くことができます。Google Voiceは、音声通話をSMSまたはメールに転送します。

更新：再読込時に、おそらくあなたが通話を録音しているので、私が残した音声メッセージのようにそれは機能しません。

score 0 · Accepted Answer

はい。

私は数年前に Tablet PC でこのようなアプリケーションを作成しました。これについては、 http://web.archive.org/web/20060615192119/www.devx.com/TabletPC/Article/30761で読むことができます(当時、Interop を使用してライブラリにアクセスすることについて話しましたが、マネージドラッパーを使用するだけで、プログラミングモデルは同じままです。)

当時、結果は非常に貧弱でしたが、ユースケースにとっては何もないよりはましかもしれません.

score 0 · Accepted Answer

音声認識のような分野では、スタンドアロンの EXE または c/c++ の API を見つける可能性があります。

他のトピックのリンクについては、 P Interop Assistantなどのツールを使用してC# コードを生成できます。C# コードはアンマネージ dll のラッパーのように機能するため、C# から呼び出すことができます。

これは、探している機能を取得するための最良の方法である可能性があります。

c# - .NET の音声認識クラスに関する質問

4 に答える 4

Related

Reference