問題タブ [speech-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cocoa - マイク入力の代わりに NSSpeechRecognizer またはオーディオ ファイルの代替を使用しますか?
直接マイク入力の代わりに、事前に録音されたオーディオ ファイルで NSSpeechRecognizer を使用することは可能ですか?
それとも、Objective-C/Cocoa 用の音声からテキストへのフレームワークが他に利用可能ですか?
追加:
アプリケーションを実行しているマシンで音声を使用するのではなく、外部デバイス (iPhone など) を使用して、録音されたオーディオ ストリームだけをそのデスクトップ アプリケーションに送信できます。デスクトップの Cocoa アプリは、割り当てられたコマンドを使用して処理し、想定されていることを実行します。
ありがとう。
c# - System.Speech APIを学習するための優れたリソースは何ですか?
C#3.5では、テキストから音声への変換、および音声からテキストへの変換を行うためにSystem.Speech.dllが追加されました。インターネットで検索すると、開始に関するブログ投稿がいくつか見つかりましたが、このテクノロジーについてさらに学ぶための優れたリソースはありますか?(必須のMSDNドキュメントを除く。)
video-streaming - 最新のソフトウェアでチューリング テストを破る可能性はありますか?
私はこれを学術的に尋ねます。非常に重要な質問を声に出して尋ね、コミュニティに答えてもらいたいと思います。入力されたテキストを読み取り、チャットボットで応答できる、ライブの匿名グループ ビデオ チャットルームに沿って再生するシーンを生成するシステムを構築できますか?
ライブのインターネット ビデオは、ぼやけて解像度が低いことがよくあります。遠くのパーティーのシーンでは、多くの詳細を理解することはできません. シーンは、動いていないときに非常にリアルに見える最新のソフトウェア ツールでレンダリングできます。それらをリアルに動かすことは、大きなシミュレーション ソフトウェアです。
顔は、毎秒 1 フレームが可能な 24 のシステムのクラスターによって、毎秒 24 フレームでレンダリングできます。ビデオには、どの表情を生成するかが決定された時点から 1 秒のラグがあります。これらの表情とその生成は重要な問題です。スキン リアリズムの要件は、グラフィックス コミュニティによって解決された問題です。
顔の表情は、複数の研究者によって分類されています。それらはレンダリングすることもできます。これは、最新のコンピューター グラフィックスの文献で示されています。どちらが特定の状況に適しているかを知ることができれば、それらを行うことができます。
チャットボットは何十年も使用されています。現在では、尋ねられたことを読み、適切な方法で応答する、非常に「スマートな」チャット プログラムが存在します。彼らは常にこれをテキストで行ってきましたが、テキストリーダーソフトウェアは人間のような声で話すことができ、音声認識ソフトウェアは毎年改善されています.
私が提案するのは、ソフトウェア開発のこれらの異なる部分をすべて結び付けて、真に驚くべきチューリングテストビーターを作成することは、非常に初歩的であるべきだという事実です。
このプログラムは仮想空間に入り、他の参加者と同じようにウェブカメラのようにリアルな環境を表示できます。顔の表情を見ることができ、スピーチを聞くことができ、テキストを読むことができます。次に、応答を作成し、グループに入力または発声することができます。何を応答するかを選択することは、ほとんどの人間でさえ習得していない難しい問題です。多くの作業を行うことで、それに近づけることができます。
チューリング テストは、コミュニケーターが人間であることを証明することを目的としていますが、「証明」は、人間の判断者をだますのに十分であるという意味でのみです。人間の審査員が全員である場合、厳格な正式な手順を適用することはほとんどありません。推測するか、トリックに引っかかるだけで十分です。
これができると思いますか?
この計画は間違っていますか?平均的な視聴者をこのようにだますことには、道徳的な意味がありますか? パーソナル インテリジェント アシスタントを生成することで、何百万ドルも稼ぐことができるでしょうか?
c# - System.Speech.Recognition.SpeechRecognitionEngine へのストリーミング入力
TCP ソケットから C# で「ストリーミング」音声認識を実行しようとしています。私が抱えている問題は、 SpeechRecognitionEngine.SetInputToAudioStream() がシークできる定義された長さのストリームを必要とするように見えることです。今のところ、これを機能させるために考えられる唯一の方法は、より多くの入力が入るたびに MemoryStream で認識エンジンを繰り返し実行することです。
説明するコードを次に示します。
これを回避する方法を知っている人はいますか?SetInputToDefaultAudioDevice() を使用してマイクで正常に動作するため、何らかのストリーミング入力をサポートする必要があります。
ありがとう、ショーン
c++ - ビデオファイルで/上で音声認識を使用する方法は?
音声認識エンジン(Microsoft Speech SDKを使用)をコーディングしてビデオファイルを「リッスン」し、検出をファイルに保存するにはどうすればよいですか?
c# - SpeechSynthesizer-wavファイルを再生/保存するにはどうすればよいですか?
ASP.NETアプリ(Silverlight以外)に次のコードスニペットがあります
どうすればよいですか:
このファイルをブラウザで再生します
ユーザーにwavファイルをダウンロードするように促しますか?
誰かがコードを完成させるのを手伝ってもらえますか?
編集:どんな助けも大歓迎です。
speech-recognition - ビデオおよびオーディオファイルからの音声のテキスト抽出
これを行うための最良のライブラリは何ですか。そして、頼りになる品質の良いenouchです。話者の声でシステムをトレーニングしたり、用語の辞書を使用して結果を改善したりすることはできません。
c# - .NET の音声認識クラスに関する質問
.NET 音声認識クラスを使用してアプリケーションを構築し、WAV ファイルを渡して、そのテキスト表現を作成することは可能ですか。たとえば、これは私がやろうとしていることです:
私のオフィスには QA 部門があり、1 日に何百件もの電話に耳を傾けなければなりませんが、これはまったく不可能なことです。私がやりたいことは、オーディオ ファイルをサーバーにアップロードし、サーバーにそれを解析させてトランスクリプトを作成させることです。完璧でなくてもかまいませんが、2 時間の録音を聞くよりも数十行のテキストをざっと目を通しておいた方が簡単なベースにすぎません。
保存されたトランスクリプトに基づいて、データベース内で全文検索を実装できます。また、誰かが間違った表現を言っている場合は、トランスクリプトに対してチェックを実行することもできます。
では、.NET 音声認識クラスを使用してアプリケーションを作成し、それに WAV ファイルを渡すだけで大まかなトランスクリプトを出力することは可能ですか?
アイデアを考えている間、Speech クラスで MSDN を簡単に掘り下げました。
可能であれば、C# での例を教えていただければ幸いです。トピック1055347は、私が抱えている質問に似ており、リンクが提供されました。その中で最も具体的なのは C++ です。私は C++ の開発者ではありませんし、プログラミングのために学校に通ったこともありません。C# については独学なので、自分が知っている言語にとどまりたいと思っています。
前もって感謝します!
speech-recognition - 組み込みアプリケーション用の音声認識エンジン
WindowsCE音声対応アプリケーションを開発するために利用可能な音声認識エンジンとSDKを調査しようとしています。私はニュアンスに出くわしましたが、他には何も見えません。可能であれば.NetSDKを使用したいと思いますが、ほとんどはC /C++だと思います。何か提案をいただければ幸いです。ありがとう。
c# - Windows音声認識C#
私は何かをするプログラムを作っていますが(申し訳ありませんが、それが何であるかを言うことはできません)、フォームにリンクラベルとボタンがあることをWindowsSpeechに何らかの形で「認識」させたいので、 「次へ」や「開始」などと言うと、それらのボタンをクリックします。IEを使用していて、Google.comにアクセスしていて、「検索」と言うと、検索ボタンをクリックして検索を開始します。
問題は、C#ウィンドウに存在するボタン/リンクラベルなどがアプリケーションを形成していることを認識していないように見えることです。これは私たち自身がしなければならないことですか?
ありがとう
バエル