問題タブ [speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 音声での感情検出
マイクからのスピーチの感情的な内容を分析するアプリを構築したいと思います。
これには、追加機能として使用されることもありますが、音声認識は含まれません。感情分析は、声の韻律的特徴 (ピッチの変化、スピードなど、トーン) に基づいています。
これはデスクトップ コンピューターで実行できることはわかっていますが、感情的なフィードバックを得るために、ユーザーが録音 (電話での会話) をサーバーにアップロードする必要はありません。
私が必要としているのは、分析全体を提供する API、またはそれらの機能 (つまり、会話の平均速度) を抽出するために使用できる API です。
そこにそのようなものはありますか?
前もって感謝します!
google-chrome - Chrome で音声入力の録音を自動化する
Google の音声入力で音声の録音を自動化しようとしています(Chrome でのみ機能します)。
そのままでは、ユーザーはマイクをクリックして録音を開始する必要がありますが、ユーザーがコンピューターと対話しないインストールに取り組んでいます。したがって、別の方法で録音をトリガーする必要があります。
コードで音声入力機能にアクセスできないように見える限り、つまり、関数を呼び出して録音を開始することはできません。だから今、私はマイクのマウスクリックをシミュレートしようとしています。
javaScript を使用してみましたが、影響を受けるのはイベントとイベント ハンドラーだけのようです (たとえば、入力フィールドでのシミュレートされたクリックはクリック ハンドラーを起動しますが、フィールドにフォーカスを与えません)。
だから今、私はWindowsシステムのマウスクリックをシミュレートすることを検討しています.それを行うことができるプログラムをいくつか見つけました. しかし問題は、ブラウザ アプリケーションからクリック シミュレーションを有効にする必要があることです。
これまでの最善の策は、カスタム スクリプトを作成できるようにするAutoHotkeyです。私の場合は、特定の位置でのマウス クリックをシミュレートするスクリプトです。したがって、このスクリプトをブラウザから実行できれば安全ですが、その方法がわかりません。
どんなアイデアや考えも大歓迎です!
flash - FlashなどでGoogleSpeechAPIを使用する方法は?!または、音声(ビデオから)からテキストへの別の優れたAPIはありますか?
音声をテキストに変換するためのAPIを探しています。この例では、ビデオファイルにオーディオマイニングを追加します。つまり、ビデオにタグワードを自動的に生成し、ユーザーがタグワードが話されているタイムコードに直接ジャンプできるようにします。
Google Speech APIはうまく機能しているようですが、http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.htmlのドキュメントはそうではありません。最善であり、レコードの開始イベントと停止イベントを自動的にトリガーする方法はまだ見つかりませんでした(システムが入力が終了したと判断した後に終了します)。システムがその場合の準備ができていないように聞こえますが...
この投稿https://stackoverflow.com/questions/2080401/is-there-a-speech-to-text-api-by-googleもここで見つけましたが、Androidシステムでのみ可能であるようです。
だから基本的に私の質問は:フラッシュやPHP / JSのようなものでGoogleスピーチAPIを使用する方法はありますか(はいの場合は良い例があります)、そうでない場合は誰かがいくつかの良いドキュメントやサンプルコードで他のAPIを知っていますかビデオの音声をテキストに変換するには?
ありがとう、クリス
android - SpeechRecognizer の onBufferReceived() によって返された raw バイトをエンコードされた AMR_NB ファイルに保存する方法は?
SpeechRecognizerから返されたオーディオ データをキャプチャする方法について、このすばらしい回答に出会いました。ただし、返されるバイトは生であり、MediaPlayer が再生できるように、これらのバイトを AMR_NB ファイルにエンコードする方法があるかどうか疑問に思っています。光を当ててください。どうもありがとう。
cocoa - ココア:スピーチと時間
一部が時間を話すアプリを作っています。ただし、日付文字列(10/24/11など)をNSSpeechSynthesizerに渡すと、文字列として、「1、0、スラッシュ2、4、スラッシュ、1つ」、タイムスタンプと同じ「8つのコロン1つ1つ」と発音されます。コロンコロン」など。
NSSpeechSynthesizerのドキュメントを見て、phonemesFromTextメソッドを使用する必要があると思いますが、アプリに日時をスムーズに伝えるには、大変な作業のようです。より速い方法はありますか?
ありがとう
api - Text-Speech 用の API はありますか?
プロジェクト用のText-Speech APIを探していますが、無料のものを探しているため、適切な API が見つかりませんでした。
iSpeechを見つけました。モバイル開発者は無料ですが、Web 開発者は料金を支払う必要があります。
Google Text Speechを試しましたが、100 文字に制限されています。
このようなText-Speech用のAPIを知っていますか?
ありがとう。
android - Android アプリの音声認識
オフラインの外国語音声認識を開発するために使用するツールについて何か提案はありますか? 私は現在、java 言語で eclipse を使用してマレー語を理解するようにシステムをトレーニングするための音響モデルを作成する方法の研究に熱心に取り組んでいます。PocketSphinx を使用しても問題ありませんか?
c# - C# system.speech.recognition 代替
多くの単語から 1 つの単語を認識するために、system.speech.recognition を使用しています。精度があまり良くないので、エンジンの選択肢をもっと検討したいです。
ただし、e.Result.Alternates には、e.Result.word と同じ結果が 1 つしか含まれていません。エンジンに強制的にオプションを追加させる方法はありますか? ありがとうございました!
python - UbuntuとPython:複数のテキストから音声への時間ベースのスクリプト
誰かが助けることができるかどうか疑問に思います。
私が探しているのは次のとおりです。効果的に「スクリプト」を作成します(劇場/舞台タイプの制作スクリプトのように)。これには、さまざまな時間にさまざまなテキストを言って、複数の声/俳優が含まれます。したがって、いくつかの声が同時に始まり、すべてが異なる長さの異なることを言っています。
私がやりたいのは、Pythonを使用してLinux / Ubuntuでこれをプログラムすることですが、これを実行するための最善の方法について誰かが考えているかどうか疑問に思いました。
どんな考えにも感謝します。
乾杯