問題タブ [speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2855 参照

android - 音声での感情検出

マイクからのスピーチの感情的な内容を分析するアプリを構築したいと思います。

これには、追加機能として使用されることもありますが、音声認識は含まれません。感情分析は、声の韻律的特徴 (ピッチの変化、スピードなど、トーン) に基づいています。

これはデスクトップ コンピューターで実行できることはわかっていますが、感情的なフィードバックを得るために、ユーザーが録音 (電話での会話) をサーバーにアップロードする必要はありません。

私が必要としているのは、分析全体を提供する API、またはそれらの機能 (つまり、会話の平均速度) を抽出するために使用できる API です。

そこにそのようなものはありますか?

前もって感謝します!

0 投票する
2 に答える
1214 参照

google-chrome - Chrome で音声入力の録音を自動化する

Google の音声入力で音声の録音を自動化しようとしています(Chrome でのみ機能します)。

そのままでは、ユーザーはマイクをクリックして録音を開始する必要がありますが、ユーザーがコンピューターと対話しないインストールに取り組んでいます。したがって、別の方法で録音をトリガーする必要があります。

コードで音声入力機能にアクセスできないように見える限り、つまり、関数を呼び出して録音を開始することはできません。だから今、私はマイクのマウスクリックをシミュレートしようとしています。
javaScript を使用してみましたが、影響を受けるのはイベントとイベント ハンドラーだけのようです (たとえば、入力フィールドでのシミュレートされたクリックはクリック ハンドラーを起動しますが、フィールドにフォーカスを与えません)。

だから今、私はWindowsシステムのマウスクリックをシミュレートすることを検討しています.それを行うことができるプログラムをいくつか見つけました. しかし問題は、ブラウザ アプリケーションからクリック シミュレーションを有効にする必要があることです。
これまでの最善の策は、カスタム スクリプトを作成できるようにするAutoHotkeyです。私の場合は、特定の位置でのマウス クリックをシミュレートするスクリプトです。したがって、このスクリプトをブラウザから実行できれば安全ですが、その方法がわかりません。

どんなアイデアや考えも大歓迎です!

0 投票する
1 に答える
1056 参照

flash - FlashなどでGoogleSpeechAPIを使用する方法は?!または、音声(ビデオから)からテキストへの別の優れたAPIはありますか?

音声をテキストに変換するためのAPIを探しています。この例では、ビデオファイルにオーディオマイニングを追加します。つまり、ビデオにタグワードを自動的に生成し、ユーザーがタグワードが話されているタイムコードに直接ジャンプできるようにします。

Google Speech APIはうまく機能しているようですが、http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.htmlのドキュメントはそうではありません。最善であり、レコードの開始イベントと停止イベントを自動的にトリガーする方法はまだ見つかりませんでした(システムが入力が終了したと判断した後に終了します)。システムがその場合の準備ができていないように聞こえますが...

この投稿https://stackoverflow.com/questions/2080401/is-there-a-speech-to-text-api-by-googleもここで見つけましたが、Androidシステムでのみ可能であるようです。

だから基本的に私の質問は:フラッシュやPHP / JSのようなものでGoogleスピーチAPIを使用する方法はありますか(はいの場合は良い例があります)、そうでない場合は誰かがいくつかの良いドキュメントやサンプルコードで他のAPIを知っていますかビデオの音声をテキストに変換するには?

ありがとう、クリス

0 投票する
0 に答える
875 参照

android - SpeechRecognizer の onBufferReceived() によって返された raw バイトをエンコードされた AMR_NB ファイルに保存する方法は?

SpeechRecognizerから返されたオーディオ データをキャプチャする方法について、このすばらしい回答に出会いました。ただし、返されるバイトは生であり、MediaPlayer が再生できるように、これらのバイトを AMR_NB ファイルにエンコードする方法があるかどうか疑問に思っています。光を当ててください。どうもありがとう。

0 投票する
2 に答える
186 参照

cocoa - ココア:スピーチと時間

一部が時間を話すアプリを作っています。ただし、日付文字列(10/24/11など)をNSSpeechSynthesizerに渡すと、文字列として、「1、0、スラッシュ2、4、スラッシュ、1つ」、タイムスタンプと同じ「8つのコロン1つ1つ」と発音されます。コロンコロン」など。

NSSpeechSynthesizerのドキュメントを見て、phonemesFromTextメソッドを使用する必要があると思いますが、アプリに日時をスムーズに伝えるには、大変な作業のようです。より速い方法はありますか?

ありがとう

0 投票する
1 に答える
1049 参照

api - Text-Speech 用の API はありますか?

プロジェクト用のText-Speech APIを探していますが、無料のものを探しているため、適切な API が見つかりませんでした。

iSpeechを見つけました。モバイル開発者は無料ですが、Web 開発者は料金を支払う必要があります。

Google Text Speechを試しましたが、100 文字に制限されています。

このようなText-Speech用のAPIを知っていますか?

ありがとう。

0 投票する
1 に答える
523 参照

android - Android アプリの音声認識

オフラインの外国語音声認識を開発するために使用するツールについて何か提案はありますか? 私は現在、java 言語で eclipse を使用してマレー語を理解するようにシステムをトレーニングするための音響モデルを作成する方法の研究に熱心に取り組んでいます。PocketSphinx を使用しても問題ありませんか?

0 投票する
0 に答える
409 参照

c# - C# system.speech.recognition 代替

多くの単語から 1 つの単語を認識するために、system.speech.recognition を使用しています。精度があまり良くないので、エンジンの選択肢をもっと検討したいです。

ただし、e.Result.Alternates には、e.Result.word と同じ結果が 1 つしか含まれていません。エンジンに強制的にオプションを追加させる方法はありますか? ありがとうございました!

0 投票する
2 に答える
3381 参照

html - CSS3-吹き出し

次のような吹き出しボックスを作成したいと思います。

バブル

tdテーブル要素内にこのような「コメントボックス」を作成する方法を考えています。CSSだけでこれを取得するにはどうすればよいですか?

私はこのHTMLマークアップを持っています:

0 投票する
1 に答える
161 参照

python - UbuntuとPython:複数のテキストから音声への時間ベースのスクリプト

誰かが助けることができるかどうか疑問に思います。

私が探しているのは次のとおりです。効果的に「スクリプト」を作成します(劇場/舞台タイプの制作スクリプトのように)。これには、さまざまな時間にさまざまなテキストを言って、複数の声/俳優が含まれます。したがって、いくつかの声が同時に始まり、すべてが異なる長さの異なることを言っています。

私がやりたいのは、Pythonを使用してLinux / Ubuntuでこれをプログラムすることですが、これを実行するための最善の方法について誰かが考えているかどうか疑問に思いました。

どんな考えにも感謝します。

乾杯