問題タブ [speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1733 参照

matlab - MATLAB でのリアルタイム音声変換

MATLAB を使用して (ほぼ) リアルタイムで音声 (ピッチ/フォルマント シフト) を変換することは可能ですか? どうすればそれができますか?

そうでない場合、何を使用すればよいですか?

マイクから入力を取得し、音波を視覚化し、フィルターを追加し、オシロスコープをもう一度見て、変更されたサウンドを再生する必要があります。

リアルタイム ビジュアライゼーション (スペクトログラム) は、Hideki Kawahara による SparkNGパッケージで作成できます。

0 投票する
1 に答える
318 参照

android - Androidで音声から音声コンポーネントを検出する方法は?

オーディオストリームの音声部分をリアルタイムで検出する簡単な方法は何でしょうか。私はMFCCやFFTなどの使用について読んでいます。しかし、私はどのように炎が行われるべきかについての明確な説明を見つけることができませんでした。

さらに、wavファイルを分析してそこに存在する人間の音声の存在を検出できるPCプログラムはありますか?

0 投票する
1 に答える
1699 参照

embedded - 小さな埋め込み合成音声ライブラリ/提案

コードサイズが音声品質よりも重要なPICおよび/またはARM組み込みシステム用の使いやすい無料または安価な音声合成ライブラリはありますか? 最近では 1 メガのパッケージが「コンパクト」と見なされているようですが、多くのマイクロコントローラーはそれよりも小さいです。1980 年代にさかのぼると、Apple は 7.16MHz 68000 で動作する 26K パッケージで妥当な品質の音声を提供する Macintalk を作成するために請負業者を雇いました。 SpeakJet は、ある種の PIC で音声合成アルゴリズムを実行します。

特に音声を生成する必要はないかもしれませんが、事前に設定された多数の単語から形成されたメッセージを話せるようになりたいと考えています。もちろん、すべてのメッセージを単純に事前に録音することも可能ですが、たとえば 100 語の語彙を使用すると、16K 相当のコードとおそらく 1K 相当の音声文字列を格納する方が、100 語の音声を格納するよりもコンパクトになると思います。

あるいは、100 語の音声を保存したい場合、自然に一緒に流れる一連の単語を生成する最良の方法は何でしょうか? 古いスタイルの音声シンセサイザーでは、任意の単語を 3 つの方法で発声できました。中立的な抑揚、下向きの抑揚 (ピリオドが続くかのように)、または上向きの抑揚 (その後に疑問符が続く) です。ニュートラルな抑揚を持つ単語は、任意の順序でつなぎ合わせることができ、問題なく聞こえます。しかし、私が見つけた text-to-wave ツールは、単語が切り離されて並べ替えられた場合に「オフ」に聞こえる抑揚の詳細を追加するのが好きなようです。うまく連結してスプライスできるウェーブを生成するために設計されたツールはありますか? そのようなツールを使用する場合、小さなマイクロコントローラーで効率的にデコードできるように、波形を保存するのに最適なオーディオ形式は何ですか?

0 投票する
1 に答える
1190 参照

java - Java用のCMU Sphinxローカルlmtoolはありますか?

単語を Arpabet 翻訳に変換したい。

何かのようなもの:

しかし、Javaでプログラム的に実行したいのですが、sphinxはhttp://www.speech.cs.cmu.edu/tools/lmtool.htmlでWebツールを提供しています。ソケットを使用して Java でこのツールを要求し、返された .dic ファイルをスニッフィングできることはわかっていますが、アプリのすべてのユーザーがインターネットに接続しているわけではないため、これを使用することはできません。

Sphinx の logios パッケージもチェックアウトしましたが、perl とバッチ ファイルで記述されています。使用できますが、アプリをプラットフォームに依存しないようにしたいので、プロジェクトに perl シェルを含めると少しやり過ぎだと思います。

再利用できるJavaライブラリまたはアルゴリズムがある場合は、次のようなことを行うだけでConvertToSphinxArpabet("HELLO")、「HH AH L OW」文字列が返されます。

0 投票する
2 に答える
378 参照

html - 音声入力フィールドに動的文法 (PHP で作成) を定義することはできますか?

音声入力フィールドに動的文法 (PHP で作成) を定義することはできますか?

http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.htmlを参照してください。

これをインラインで実行したい (PHP で HTML に追加) が、例が見つかりません。

0 投票する
2 に答える
4266 参照

html - HTML 5 音声入力 API で文法を使用する方法はありますか?

私は HTML 5 音声入力 API を使用しており、音声入力から返されると予想される回答をサーバーに知らせたいと考えています。可能な入力のリストを設定する方法はありますか?

0 投票する
1 に答える
1260 参照

python - Dragon NaturallySpeaking からのすべての入力を Python にリダイレクトしますか? (Natlink を使用)

私は現在、Dragon NaturallySpeaking (Natlink を使用) から入力を受け取り、それを処理し、音声出力を返す AI プログラムを作成しています。Dragon からのすべての入力をキャプチャしてパーサーに送信する Receiver GrammarBase を思いつくことができました。

このコードは期待どおりに機能しますが、いくつかの問題があります。

  1. Dragon は入力を処理してからプログラムに送信します。たとえば、「Open Google Chrome.」と言うと、Google Chrome が開き、入力が Python に送信されます。最初に処理せずに入力を Python に送信する方法はありますか?

  2. waitForSpeech() を呼び出すと、Python インタープリターが入力を待機していることを示すメッセージ ボックスが表示されます。(美学と利便性のために) メッセージ ボックスが表示されないようにすることはできますか? 代わりに、ユーザーからの大幅な一時停止の後、音声収集プロセスを終了しますか?

ありがとうございました!

0 投票する
1 に答える
1818 参照

ios - IOS サウンド処理、レベル検出

IOSでスピン処理をしていきます。アプリの実行中に、サウンドが収集されます。ユーザーが話し始めるとライトが赤くなり、話すのを止めると緑に戻って処理を開始します。

音声部分の開始と終了を検出するための最良の方法の推奨事項と、その部分を選択して処理ルーチンに渡す方法に関するヒントはありますか? .

0 投票する
1 に答える
1998 参照

python - マイクロソフトの音声認識APIに精通している人はいますか?

私はpythonで音声認識コードを書いていて、それがマイクロソフトの音声認識システムをオンにできるようにしたいのですが、そのシステムがすべての通常のGUIインターフェースコマンドを無視するようにしたいのです。そのため、認識できることを言うと、それを無視して、プログラムに処理させます。

0 投票する
4 に答える
4977 参照

c# - .NET での音声認識が機能しない

私は、パラレルポートを介してリレーを制御するための単純な音声認識アプリケーションを使用していましたが、これが基本的なプログラムであり、動作するはずです。

これは私の友人のコンピューターでは完全に機能しますが、私のコンピューターでは、私が話していることを認識しません。入力が得られていない可能性があります。どちらもほぼ同じ構成です。マイクも正常に機能しており、何が悪いのかわかりません。

Microsoft Speech Platform - Software Development Kit (SDK)、バージョン 10.2 (x86 エディション) をインストールしました Microsoft Speech Platform - Server Runtime、バージョン 10.2 (x86 エディション)

私を助けてください。