“speech-recognition”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1241 参照

cocoa - マイク入力の代わりに NSSpeechRecognizer またはオーディオファイルの代替を使用しますか?

直接マイク入力の代わりに、事前に録音されたオーディオファイルで NSSpeechRecognizer を使用することは可能ですか?

それとも、Objective-C/Cocoa 用の音声からテキストへのフレームワークが他に利用可能ですか?

追加：

アプリケーションを実行しているマシンで音声を使用するのではなく、外部デバイス (iPhone など) を使用して、録音されたオーディオストリームだけをそのデスクトップアプリケーションに送信できます。デスクトップの Cocoa アプリは、割り当てられたコマンドを使用して処理し、想定されていることを実行します。

ありがとう。

2009-10-28T12:17:23.400

0 投票する

2 に答える

138 参照

c# - System.Speech APIを学習するための優れたリソースは何ですか？

C＃3.5では、テキストから音声への変換、および音声からテキストへの変換を行うためにSystem.Speech.dllが追加されました。インターネットで検索すると、開始に関するブログ投稿がいくつか見つかりましたが、このテクノロジーについてさらに学ぶための優れたリソースはありますか？（必須のMSDNドキュメントを除く。）

c#.net speech-recognition

2009-10-30T06:21:22.403

0 投票する

4 に答える

432 参照

video-streaming - 最新のソフトウェアでチューリングテストを破る可能性はありますか?

私はこれを学術的に尋ねます。非常に重要な質問を声に出して尋ね、コミュニティに答えてもらいたいと思います。入力されたテキストを読み取り、チャットボットで応答できる、ライブの匿名グループビデオチャットルームに沿って再生するシーンを生成するシステムを構築できますか?

ライブのインターネットビデオは、ぼやけて解像度が低いことがよくあります。遠くのパーティーのシーンでは、多くの詳細を理解することはできません. シーンは、動いていないときに非常にリアルに見える最新のソフトウェアツールでレンダリングできます。それらをリアルに動かすことは、大きなシミュレーションソフトウェアです。

顔は、毎秒 1 フレームが可能な 24 のシステムのクラスターによって、毎秒 24 フレームでレンダリングできます。ビデオには、どの表情を生成するかが決定された時点から 1 秒のラグがあります。これらの表情とその生成は重要な問題です。スキンリアリズムの要件は、グラフィックスコミュニティによって解決された問題です。

顔の表情は、複数の研究者によって分類されています。それらはレンダリングすることもできます。これは、最新のコンピューターグラフィックスの文献で示されています。どちらが特定の状況に適しているかを知ることができれば、それらを行うことができます。

チャットボットは何十年も使用されています。現在では、尋ねられたことを読み、適切な方法で応答する、非常に「スマートな」チャットプログラムが存在します。彼らは常にこれをテキストで行ってきましたが、テキストリーダーソフトウェアは人間のような声で話すことができ、音声認識ソフトウェアは毎年改善されています.

私が提案するのは、ソフトウェア開発のこれらの異なる部分をすべて結び付けて、真に驚くべきチューリングテストビーターを作成することは、非常に初歩的であるべきだという事実です。

このプログラムは仮想空間に入り、他の参加者と同じようにウェブカメラのようにリアルな環境を表示できます。顔の表情を見ることができ、スピーチを聞くことができ、テキストを読むことができます。次に、応答を作成し、グループに入力または発声することができます。何を応答するかを選択することは、ほとんどの人間でさえ習得していない難しい問題です。多くの作業を行うことで、それに近づけることができます。

チューリングテストは、コミュニケーターが人間であることを証明することを目的としていますが、「証明」は、人間の判断者をだますのに十分であるという意味でのみです。人間の審査員が全員である場合、厳格な正式な手順を適用することはほとんどありません。推測するか、トリックに引っかかるだけで十分です。

これができると思いますか？

この計画は間違っていますか？平均的な視聴者をこのようにだますことには、道徳的な意味がありますか? パーソナルインテリジェントアシスタントを生成することで、何百万ドルも稼ぐことができるでしょうか?

video-streaming speech-recognition videochat chatbot

2009-10-30T08:49:57.687

0 投票する

5 に答える

8766 参照

c# - System.Speech.Recognition.SpeechRecognitionEngine へのストリーミング入力

TCP ソケットから C# で「ストリーミング」音声認識を実行しようとしています。私が抱えている問題は、 SpeechRecognitionEngine.SetInputToAudioStream() がシークできる定義された長さのストリームを必要とするように見えることです。今のところ、これを機能させるために考えられる唯一の方法は、より多くの入力が入るたびに MemoryStream で認識エンジンを繰り返し実行することです。

説明するコードを次に示します。

これを回避する方法を知っている人はいますか？SetInputToDefaultAudioDevice() を使用してマイクで正常に動作するため、何らかのストリーミング入力をサポートする必要があります。

ありがとう、ショーン

c#sockets streaming speech-recognition sapi

2009-11-05T19:16:38.777

0 投票する

1 に答える

517 参照

c++ - ビデオファイルで/上で音声認識を使用する方法は？

音声認識エンジン（Microsoft Speech SDKを使用）をコーディングしてビデオファイルを「リッスン」し、検出をファイルに保存するにはどうすればよいですか？

c++video speech-recognition

2009-11-09T12:17:04.400

0 投票する

1 に答える

3516 参照

c# - SpeechSynthesizer-wavファイルを再生/保存するにはどうすればよいですか？

ASP.NETアプリ（Silverlight以外）に次のコードスニペットがあります

どうすればよいですか：

このファイルをブラウザで再生します
ユーザーにwavファイルをダウンロードするように促しますか？

誰かがコードを完成させるのを手伝ってもらえますか？

編集：どんな助けも大歓迎です。

c#.net asp.net speech-recognition

2009-11-12T03:56:22.503

0 投票する

1 に答える

2398 参照

speech-recognition - ビデオおよびオーディオファイルからの音声のテキスト抽出

これを行うための最良のライブラリは何ですか。そして、頼りになる品質の良いenouchです。話者の声でシステムをトレーニングしたり、用語の辞書を使用して結果を改善したりすることはできません。

speech-recognition

2009-11-16T07:33:51.257

0 投票する

4 に答える

594 参照

c# - .NET の音声認識クラスに関する質問

.NET 音声認識クラスを使用してアプリケーションを構築し、WAV ファイルを渡して、そのテキスト表現を作成することは可能ですか。たとえば、これは私がやろうとしていることです：

私のオフィスには QA 部門があり、1 日に何百件もの電話に耳を傾けなければなりませんが、これはまったく不可能なことです。私がやりたいことは、オーディオファイルをサーバーにアップロードし、サーバーにそれを解析させてトランスクリプトを作成させることです。完璧でなくてもかまいませんが、2 時間の録音を聞くよりも数十行のテキストをざっと目を通しておいた方が簡単なベースにすぎません。

保存されたトランスクリプトに基づいて、データベース内で全文検索を実装できます。また、誰かが間違った表現を言っている場合は、トランスクリプトに対してチェックを実行することもできます。

では、.NET 音声認識クラスを使用してアプリケーションを作成し、それに WAV ファイルを渡すだけで大まかなトランスクリプトを出力することは可能ですか?

アイデアを考えている間、Speech クラスで MSDN を簡単に掘り下げました。

可能であれば、C# での例を教えていただければ幸いです。トピック1055347は、私が抱えている質問に似ており、リンクが提供されました。その中で最も具体的なのは C++ です。私は C++ の開発者ではありませんし、プログラミングのために学校に通ったこともありません。C# については独学なので、自分が知っている言語にとどまりたいと思っています。

前もって感謝します！

c#speech-recognition sapi

2009-11-20T19:39:43.083

0 投票する

5 に答える

1434 参照

speech-recognition - 組み込みアプリケーション用の音声認識エンジン

WindowsCE音声対応アプリケーションを開発するために利用可能な音声認識エンジンとSDKを調査しようとしています。私はニュアンスに出くわしましたが、他には何も見えません。可能であれば.NetSDKを使用したいと思いますが、ほとんどはC /C++だと思います。何か提案をいただければ幸いです。ありがとう。

speech-recognition text-to-speech speech-to-text voice-recognition

2009-12-07T20:05:58.413

0 投票する

3 に答える

1030 参照

c# - Windows音声認識C＃

私は何かをするプログラムを作っていますが（申し訳ありませんが、それが何であるかを言うことはできません）、フォームにリンクラベルとボタンがあることをWindowsSpeechに何らかの形で「認識」させたいので、「次へ」や「開始」などと言うと、それらのボタンをクリックします。IEを使用していて、Google.comにアクセスしていて、「検索」と言うと、検索ボタンをクリックして検索を開始します。

問題は、C＃ウィンドウに存在するボタン/リンクラベルなどがアプリケーションを形成していることを認識していないように見えることです。これは私たち自身がしなければならないことですか？

ありがとう

バエル

c#windows winforms speech-recognition

2009-12-10T09:14:07.113

問題タブ [speech-recognition]

Reference