問題タブ [speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
728 参照

c++ - インターフェイスウィンドウとしてWindowsフォームを使用するCLRプロジェクトでSAPIのSetNotifyCallbackFunction()を使用するにはどうすればよいですか?

Winamp用のdllプラグインを作成しようとしています。Microsoft VisualStudio2008とMicrosoftSAPI5.1を使用しています。Windowsフォーム(System :: Windows :: Forms :: Form)を使用してインターフェイスウィンドウを作成しました。

SetNotifyWIndowMessage()を使用しようとしましたが、マイクに向かって話すときにメソッドが呼び出されません。そこで、SetNotifyCallbackFunction()を使用しようとしましたが、パラメーターのメソッド名の前に「&」を使用する必要があるというコンパイルエラーが発生しました。ただし、「&」を追加すると、デリゲートインスタンスを作成しない限り、メソッドのアドレスを取得できないという別のコンパイルエラーが発生しました。

私は何をすべきか?誰か助けてください。

0 投票する
2 に答える
180 参照

signal-processing - 個々の声を認識する

私は、個々の話者、彼らのピッチと強さを認識する会話分析ソフトウェアを書くことを計画しています。ピッチと強度はやや単純です(自己相関によるピッチ)。

個々の話者を認識して、その話者の特徴​​を記録できるようにするにはどうすればよいですか?各スピーカーの周波数のヒューリスティックを保存するだけで十分ですか?一度に話す人は1人だけだと思います(厳密に重複しない)。また、トレーニングでは、実際の分析の前に、各スピーカーが1分に相当するデータを記録できると想定できます。

0 投票する
1 に答える
5705 参照

python - DragonNaturallySpeakingプログラマー

Dragon NaturallySpeakingをイベント駆動型プログラムに組み込む方法はありますか?DNSを使用して、画面に書き込んだりXMLに直接保存したりせずに、ユーザーの音声入力を録音した場合、上司は本当にそれを望んでいます。私は数日間研究を続けていますが、(本当に高価な)SDKなしではこれを実現する方法がわかりません。それが機能するかどうかさえわかりません。

Microsoftには、音声認識機能が音声イベントを検出するまで待機して処理できる(Python)プログラムを作成する機能があります。また、最良の推測であると思われるフレーズに代わるフレーズを提案し、後で使用するために.wavファイルを記録できるという便利な品質も備えています。サンプルコード:

DNSにこれを行わせることができないようです。私ができる最も近い-それをヒッキーすることは:

すべての文の後にユーザーに「改行」と言わせるという恐ろしい副作用さえあります!まったく好ましい解決策ではありません!DNSにMicrosoftSpeechの機能を実行させる方法はありますか?

参考までに:論理的な解決策は単にMicrosoft Speechに切り替えることだと思いますが、ニヤリと笑うためだけに、それはオプションではないと仮定しましょう。

更新-SDKを購入した人はいますか?役に立ちましたか?

0 投票する
4 に答える
46997 参照

.net - System.Speech.Recognition と Microsoft.Speech.Recognition の違いは何ですか?

.NET の音声認識には、2 つの類似した名前空間とアセンブリがあります。違いと、どちらを使用するのが適切なのかを理解しようとしています。

アセンブリ System.Speech (System.Speech.dll 内) から System.Speech.Recognition があります。System.Speech.dll は、.NET Framework クラス ライブラリ 3.0 以降のコア DLL です。

アセンブリ Microsoft.Speech (microsoft.speech.dll 内) からの Microsoft.Speech.Recognition もあります。Microsoft.Speech.dll は UCMA 2.0 SDK の一部です

ドキュメントがわかりにくく、次の質問があります。

System.Speech.Recognition は「Windows Desktop Speech Technology」用であると言っていますが、これはサーバー OS では使用できない、または大規模なアプリケーションには使用できないということですか?

UCMA 2.0 Speech SDK ( http://msdn.microsoft.com/en-us/library/dd266409%28v=office.13%29.aspx ) には、前提条件として Microsoft Office Communications Server 2007 R2 が必要であると記載されています。ただし、カンファレンスや会議で、プレゼンスやワークフローなどの OCS 機能が必要ない場合は、OCS なしで UCMA 2.0 Speech API を使用できると言われました。これは本当ですか?

サーバー アプリケーション用の単純な認識アプリを構築しており (たとえば、ボイス メールを自動的に文字起こししたいと考えていました)、OCS の機能は必要ありません。2 つの API の違いは何ですか?

0 投票する
2 に答える
275 参照

audio - TI-99 スピーチ効果?

録音した音声を変換して、テキサス TI-99 から発せられているように聞こえるプログラムを作成したいと考えています。それを実現するための良いアイデアやリソースはありますか?

0 投票する
1 に答える
3474 参照

audio - 音声ストリームから単語 (音声) を抽出するためのライブラリ?

オーディオ ストリームがあり、そこから単語 (音声) を抽出します。たとえば、audio.wav がある場合、001.wav、002.wav、003.wav などを取得します。ここで、各 XXX.wav は 1 つの単語です。

それを行うためのライブラリまたはプログラムを探しています。プラットフォームは関係ありませんが、オープンソース ソリューションを好みます。

よろしくお願いします。

0 投票する
1 に答える
128 参照

pdf - スピーチオーバー PDF?

PDF ドキュメントに吹き出し/ナレーションを追加したいと考えています。

したがって、文が強調表示され (背景色またはテキストの色が変化)、同期されたオーディオ (コンピューターの音声ではなく、録音されたオーディオ クリップ) が再生されます。どうすればいいのですか?これを実現するために(できればMacで)利用可能な既製のソフトウェアはありますか?

助けていただければ幸いです。

ありがとう

0 投票する
3 に答える
3269 参照

python - Python3.x音声モジュール

Python 3.0用のpyTTSまたはある種の音声モジュールはありますか?どこにも見つからないので、ぜひ試してみたいです。

0 投票する
2 に答える
4624 参照

delphi - Microsoft speech api 5.1 GetVoices が Windows 7 に存在しない音声を返す

XP から Windows 7 64 ビットに移行しています。XP マシンでコンパイルしたアプリは、XP で正しく動作します。ただし、W7 マシンで exe を実行すると、GetVoices によって返される音声のリストは次のようになります。
Microsoft Anna
Microsoft Mary
Microsoft Mike
Sample TTS Voice.

W7 Speech Properties ダイアログを確認すると、Microsoft Anna だけがマシンにロードされていることがわかります。HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Speech/Voices でレジストリを確認すると、これが確認されます。

新しい Windows 7 開発マシンでアプリを再コンパイルすると、上記の動作を複製する exe が作成されます。(XP コンパイル コードと W7 コンパイル コードは、W7 で実行すると同じエラーを再現します)

私は Windows 7 64 ビットの Delphi 7 で開発を行っており、Microsoft Speech Object Library (バージョン 5.4) を使用しています (注: 5.4 は [インポート タイプ ライブラリ] リストに表示されているものです)。

W7 マシンに SpeechSDK51.exe をインストールしました。これは次のとおりです。

http://www.microsoft.com/downloads/details.aspx?FamilyID=5e86ec97-40a7-453f-b0ee-6583171b4530&DisplayLang=en

次のコードは、Windows 7 で 4 つのボイスのリストを生成します。ボイスは 1 つしかないはずです。

この問題に対処する方法について何か提案はありますか?

ありがとう、
ショーン

0 投票する
2 に答える
1940 参照

asp.net - IIS で Microsoft.Speech を実行しますか?

Microsoft.Speech を使用して WAV ファイルの音声を認識するアプリがあります。コンソール アプリとしてローカルで実行すると完全に動作しますが、IIS で実行すると barfs になります。

.NET 3.5+ を搭載した WinServer 2008 に以下がインストールされていると仮定します。

  1. Microsoft Speech Platform - ソフトウェア開発キット (SDK) (バージョン 10.1)
  2. Microsoft Speech Platform - サーバー ランタイム言語 (バージョン 10.1)
  3. Microsoft Speech Platform - ソフトウェア開発キット (SDK) (バージョン 10.1)

IIS7 で Microsoft.Speech を使用することは可能ですか? ここで何が欠けていますか?

ASP.NET Web サービスとして再コーディングしようとしましたが、それも機能しません。

Suuuper はここで立ち往生しました。あなたが助けることができればありがとう:)かなりお願いします:)

更新: エラー メッセージ + スタック トレースは次のとおりです。