問題タブ [speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - C++ を使用して Windows 音声認識を呼び出して使用する
Windows 音声認識を使用するアプリケーションを作成しています。私はこの言語の経験があるので、これを行うために c++ を使用することを考えています。音声認識を使用したいのは、内部で機能するようにすることです。オーディオ ファイルをプログラムにアップロードする場合、音声認識でこのオーディオをテキスト ファイルとして書き出す必要がありますが、これはすべて内部で行う必要があります。質問を適切に説明していない場合はお知らせください。もう一度説明します。
前もってありがとう、Divs
python - pyspeech(python)-mp3ファイルを転記しますか?
pyspeech APIを使用してmp3(音声からテキスト)を書き起こしたいのですが。しかし、これが可能かどうかはわかりません。
それは...ですか?どのように?
c# - SetInputToWaveFile
私はc#を初めて使用し、現在、オーディオファイルを入力として使用してテキストとして書き込むプロジェクトに取り組んでいます。system.speechを使用するコードがあります。このコードはhttp://blog.thomascsherman.com/2009/08/getting-started-with-windows-voice-recognition/から取得 し、コンパイルされますが、実行時に問題が発生します。実行するとすぐにコードがクラッシュし、コンソールに「入力ファイルが見つかりません」と表示されます。入力ファイルのパスが何であるかを理解し、ファイルがそのフォルダーにあることを知っています。これを手伝ってください。以下のコードを貼り付けています。
システムを使用する; System.IOを使用します。System.Speechを使用します。System.Speech.Recognitionを使用します。System.Speech.AudioFormatを使用する;
パブリッククラスこんにちは{
android - Android で音声パケットを処理する API
Android での通話中に音声パケットを処理する API はありますか? 音声パケットにアクセスするにはどうすればよいですか?
ありがとう、
スリラム
asp.net - 音声対応のasp.netアプリケーション
音声で入力する必要のあるデータを必要とするasp.netWebアプリケーションに取り組んでいます。
ユーザーは通常のユーザーインターフェイスを使用してデータを入力できますが、話すことでデータを入力できる追加機能が必要です。「value1」を「data1」に入力するなどの音声コマンドを修正できます。ユーザーは「data1」に続いて「value1」(または後で修正できるその他のもの)を話します。
インターネットで検索したところ、MicrosoftSpeechSDKを使用することが解決策であることがわかりました。最初の実装から始めて、IEでのみ機能し、プラグインが必要であることがわかりました(Windows 7ではこのプラグインを使用できませんでした。XPのみ)。
他の解決策はありますか、またはSASDKを他のブラウザにも使用できますか?どんな提案も役に立ちます。
ありがとう、Gaurav
speech - 英語のスピーチフレーズのデータソース
私は、英語を話す学生(第二言語として英語を使用する)が英語を話すためのシミュレーション環境を開発するための研究を行っています。
私の開発の一部では、実際の事件に対してタグ付けされた英語のスピーチフレーズを主に使用するデータソースが必要です。例として、「申し訳ありませんが謝罪する方法。ごめんなさい。ごめんなさい!失くしてすみません。」</p>
このサービスhttp://edition.englishclub.comを提供しているサイトはいくつか見つかりましたが、データソースは見つかりませんでした。
誰かが「wordnet」のように使用できるそのようなデータソースを使用したことがありますか?もしそうなら、私がこれを前進させるのを手伝ってください。そうでなければ、私は車輪の再発明をしたいと思うようなデータソースを開発する必要があります。
android - 英語以外の言語用のGoogle音声認識API
英語以外の言語の音声からテキストへのAPIはありますか?英語のAPI( http://developer.android.com/resources/articles/speech-input.html )を知っていますが、Googleマップや検索などのように自分の言語で音声を認識できるようにしたいと考えています。Android APIではなく、一般的なAPIにすることもできます。
applescript - AppleScript と音声
AppleScript を使用して、Mac が現在生成している (またはキューに入れている) 音声を停止することはできますか?
私は基本的に、AppleScript の「say」コマンドの反対を探しています。
speech-recognition - 人間の声、性別、年齢、感情を検出するためのオーディオ分析 -- 以前に行われたオープンソースの作業はありますか?
「オーディオ分析」の分野で、人間の声を検出し(バックグラウンドノイズがあるにもかかわらず)、話者の性別を判断し、おそらくノーと判断するために行われた以前のオープンソース作業はありますか。スピーカーの年齢、スピーカーの感情?
私の推測では、CMU Sphinx のような音声認識ソフトウェアが出発点として適している可能性がありますが、それより優れたものがあるとすれば、それは素晴らしいことです。
sapi - 音声トレーニング ファイルとレジストリの場所
コードで音響トレーニングを行う必要がある音声プロジェクトがあります。Windows 7 で、SAPI を使用してトランスクリプトとそれに関連するレジストリ エントリを含むトレーニング ファイルを作成することに成功しました。ただし、認識エンジンがこれらのファイルを正常に使用してモデルを適応させているかどうかを判断することはできません。私の質問は次のとおりです。
コントロール パネルのトレーニング UI を使用してトレーニングを実行すると、システムはトレーニング ファイルを "{AppData}\Local\Microsoft\Speech\Files\TrainingAudio" に保存します。オーディオ トレーニング ファイルはこの場所に保存する必要がありますか?それとも、プロファイルのレジストリ エントリが正しいパスを反映している限り、別の場所に保存できますか?
- 音声コントロール パネルは、トレーニング オーディオ ファイルのレジストリ エントリをキー "HKCU\Software\Microsoft\Speech\RecoProfiles\Tokens{ProfileGUID}{00000000-0000-0000-0000-0000000000000000}\Files" に作成します。
a) トレーニング コードによって作成されたレジストリ エントリは、"{00000000-0000-0000-0000-0000000000000000}\Files" に配置する必要がありますか? または {ProfileGUID} の下に新しいランダム GUID を作成できますか?
b) サブキーは「ファイル」という名前にする必要がありますか?
c) また、レジストリ値は「TrainingAudio-xxxx-xxxxxxxx-xxxxxxxx」の形式に従う必要がありますか?それとも他の値を使用できますか?
d) 最後に、レジストリ値データの形式は「%1c%\Microsoft\Speech\Files\TrainingAudio\SP-xxx....xxx」です。絶対パスを指定できますか?
e) ファイル名は「SP-xxx....xxx.wav」の形式に従う必要がありますか、それとも一意のファイル名を使用できますか?
ありがとう。
ギリ