問題タブ [speech-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - Microsoft Surface で Speech 2 テキストを使用する方法
Microsoft Surface アプリケーションで音声 2 テキストを使用したいと考えています。それが可能であることはわかりましたが、どこから始めればよいかわかりません。利用可能なフレームワーク/ライブラリ、コード スニペット、またはチュートリアルはありますか??
何をグーグルで検索すればよいのかさえ正確にはわかりません;)
===編集=== 単語を認識するために文法を使用する必要があることを読みました。では、フリーテキストを進めたい場合、英語の定義済みの文法はありますか? または、speech2text を使用せず、代わりに音声ファイルのみを使用する方が良い選択ですか?
sphinx - Pocketsphinx - 単語の追加と精度の向上
私はようやくポケットスフィンクス (pocketsphinx_continuous) をビルドして実行することができました。私が直面している問題は、精度を向上させる方法です。私が理解していることから、辞書ファイル(-dict test.dic)を指定できます。そこで、デフォルトの辞書ファイルを使用して、同じ単語の発音をいくつか追加しました。次に例を示します。
それでも、ポケットフィンクスはどちらの単語もまったく認識しません。同様に指定できるjsgfファイルがあることは知っていますが、それはフレーズと文法のようです。鉛筆やスパゲッティなどの一般的な単語をポケットフィンクスに認識させるにはどうすればよいですか?
ありがとう
-マイク
android - SpeechRecognizer により ANR が発生する... Android 音声 API のサポートが必要です
編集:これについてはすでに言及する必要がありましたが、このコードをサービスで実行しています。アプリ全体がウィジェット ボタンでオン/オフされ、アクティビティはありません。
更新: SDK ソースをプロジェクトにアタッチして、失敗が発生した場所をより正確に把握できるようにしましたが、見た目からすると、パブリック API のみが含まれているため、あまり役に立たないようです.. .この問題を解決するための少なくともデバッグアプローチを提案できる人はいますか? 私はちょっと立ち往生しています。
Android の音声認識パッケージを使用して、ユーザーの音声を録音し、テキストに変換しようとしています。残念ながら、リスニングを開始しようとすると、具体的なことを示さない ANR エラーが表示されます。
SpeechRecognizer API が示すように、メイン スレッドから呼び出そうとすると、RuntimeException がスローされます。これは、処理に負荷がかかりすぎたのではないかと思います... しかし、他のアプリケーションがこの目的で Android API を使用していることは知っており、通常はかなりきびきびしています。
java.lang.RuntimeException: SpeechRecognizer should be used only from the application's main thread
これは、サービスから呼び出そうとしているコードの (トリミングされた) サンプルです。これは適切なアプローチですか?
お時間を割いていただきありがとうございます。これは私がまだ乗り越えられないハードルでした。
c++ - C++ を使用して Windows 音声認識を呼び出して使用する
Windows 音声認識を使用するアプリケーションを作成しています。私はこの言語の経験があるので、これを行うために c++ を使用することを考えています。音声認識を使用したいのは、内部で機能するようにすることです。オーディオ ファイルをプログラムにアップロードする場合、音声認識でこのオーディオをテキスト ファイルとして書き出す必要がありますが、これはすべて内部で行う必要があります。質問を適切に説明していない場合はお知らせください。もう一度説明します。
前もってありがとう、Divs
python - pyspeech(python)-mp3ファイルを転記しますか?
pyspeech APIを使用してmp3(音声からテキスト)を書き起こしたいのですが。しかし、これが可能かどうかはわかりません。
それは...ですか?どのように?
c# - テキストへの音声/音声
マイクを介して音声/音声をテキスト(文字列)に変換するAPIまたはライブラリ(できれば無料)が必要です。
さらに、テキスト読み上げを実行できるAPIまたはライブラリが必要になります。
C#と.NETを使用したいのですが、他の言語で十分です。
ありがとう。
android - 音声入力に SpeechRecognizer API を直接使用する方法はありますか?
Android Dev Web サイトには、組み込みの Google Speech Input Activity を使用して音声入力を行う例が示されています。アクティビティは、マイクを使用して事前構成されたポップアップを表示し、次を使用してその結果を渡しますonActivityResult()
私の質問:SpeechRecognizer
クラスを直接使用して、既定のアクティビティを表示せずに音声入力を行う方法はありますか? これにより、音声入力用の独自のアクティビティを作成できます。
security - 人間の声をデジタル形式に変換する方法は?
私は、生体認証システムを使用してシステムを保護するプロジェクトに取り組んでいます。システムを保護するために人間の声を使用する予定です。
アイデアは、人がいくつかの単語や文章を発声できるようにすることであり、システムはその声をデジタル形式で保存します。次に人がシステムに入りたいと思うとき、彼/彼女は、以前に使用された言葉と異なるかもしれないし、そうでないかもしれないいくつかの言葉を話さなければなりません。
単語を一致させたいのではなく、音声周波数を一致させたいのです。
このシステムに関するいくつかの研究論文を読みましたが、それらの論文には実装の詳細がありません。
アナログ音声をデジタル形式に変換でき、音声の周波数も教えてくれるソフトウェア/APIがあるかどうかを知りたいだけです。
今までは通常の Web ベースのアプリケーションを扱っていたので、Java EE や C# などの通常の API やプラットフォームについては知っていますが、この種のアプリケーションについては経験がありません。
啓発してください!!!