問題タブ [speech-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
3919 参照

language-agnostic - 音声からテキストへの使用を開始するには?

音声からテキストへのアルゴリズムに非常に興味がありますが、どこから勉強を始めればよいかわかりません。たくさんの検索を行った結果、これにたどり着きましたが、それは 1996 年のものであり、それ以来改善されていることはかなり確信しています。

この種のものを経験したことがある人は、読む/ソースコードを調べるための推奨事項はありますか? または、音声認識プログラムを作成する世界に入りたい場合に何を学ぼうとしているのかについての一般的なアドバイスです (ドメインについてあまり知識がないと、何を検索すればよいかを理解するのが難しい場合があります)。

編集:クロスプラットフォームで何かをしたいのですが、今のところLinuxをターゲットにしています。

編集 2: csmba のよく考えられた返信に感謝します。現時点では、自動化や音声によるさまざまなコマンドの実行を可能にするアプリケーションを作成できるようになることに主に関心があります。したがって、限られた量の認識可能なコマンドをつなぎ合わせることができます。たとえば、「Squarepusher の Hello Everything のアルバムを再生して」などのコマンドを受け取る音楽プレーヤーや、ユーザーが特定のアプリを起動するための音声ショートカットを作成できるアプリケーション ランチャーなどです。

これは非常に大きな問題であり、認識エンジン全体の実装に取り​​組むために現在必要とされるレベルの知識はどこにもないことを認識しています。自分でやる。おそらく、私はこのテーマに関する本を 1 冊か 2 冊手に取り、自由な時間に「単純な」実装について勉強したり遊んだりすることになるでしょう。

0 投票する
1 に答える
13000 参照

search - オーディオ ファイル/ストリーム内のコンテンツを検索するにはどうすればよいですか?

テキストの検索、画像の検索、さらには動画の検索にも、さまざまな検索手法がいくつ存在するのか、常に疑問に思っていました。

ただし、オーディオ ファイル内のコンテンツを検索するソリューションに出会ったことはありません。

例:約 200 のポッドキャストが mp3、wav、および ogg ファイルの形式で PC にダウンロードされているとします。それらはすべて一般的に podcast1.mp3、podcast2.mp3 などの名前が付けられています。そのため、実際に聞いてみないと内容を知ることはできません。つまり、どのポッドキャストが「ゲーム プログラミング」について話しているかを知りたいと思っています。結果を次のように表示したい:

  • Podcast1.mp3 - 時間インデックスの 3 つの結果 - 0:16:21、0:43:45、1:12:31
  • Podcast21.ogg - 時間インデックスで 1 件の結果 - 0:12:01

だから私の質問:

  • この問題にどのようにアプローチできますか?
  • このようなことを行うために開発された適切なアルゴリズムはありますか?

私の頭に浮かんだアイデアの 1 つは、「音声テキスト変換」ソフトウェアを使用して、各オーディオ ファイルの時間インデックスと共にトランスクリプトを取得し、トランスクリプトを解析して出力を取得できるというものでした。

私はこれを私の趣味のプロジェクトの 1 つと考えていました。ありがとう!

0 投票する
2 に答える
4190 参照

speech-recognition - Sphinx 音声認識の経験がある人はいますか?

Sphinx音声認識スタックを使用してIVR アプリケーションを構築した人はいますか? 私は、MSFT などの高価で多少制限のある選択肢に代わるオープン ソースの選択肢を探しています。オープン ソースの音声/音声アプリケーションを結び付ける包括的なパッケージを見つけることができませんでした。

0 投票する
5 に答える
6921 参照

speech-recognition - 優れたオープン ソースの VoiceXML 実装とは?

オープン ソース プロジェクトのパーツを組み合わせて、完全な IVR アプリケーションを構築できるかどうかを調べようとしています。非商用の VoiceXML 実装を使用して音声対応システムを構築している人はいますか?

0 投票する
6 に答える
5586 参照

windows-vista - 複数の言語での Vista 音声認識

私の第一言語はスペイン語ですが、Windows を含むすべてのソフトウェアを英語で使用しています。ただし、スペイン語で音声認識を使用したいと思います。

vista の音声認識を主要な OS 言語以外の言語で使用する方法があるかどうか知っていますか?

0 投票する
2 に答える
804 参照

speech-recognition - ファイル検索のための音声認識

これが私が抱えている問題です:

ユーザーが検索できるようにしたい mp3 ファイルが多数 (数万) あります。あなたが使用したり、良いことを聞いたりしたソフトウェアで、そのコンテンツにインデックスを付けてデータベースに入れ、後で検索できるようにするソフトウェアはありますか?

0 投票する
16 に答える
20676 参照

speech-recognition - 開発者向けの音声認識ソフトウェア

ドキュメントは最終的にそれを言った、私は数ヶ月間手首を楽にする必要がある. 私は .NET 開発者なので、これで私の生計がしばらく途絶える可能性があります。とはいえ、開発者向けの優れたハンズフリー オプションはありますか? 音声認識ソフトウェアを使って成功した人はいますか?

追記: 両手でのプログラミングが問題にならないところまで腕を回復させました。ドラゴン 当然のことながら、十分に機能しましたが、思ったよりも速くプログラミングしていたキーボードとは異なり、遅くなりました。

0 投票する
1 に答える
279 参照

computer-science - 音声ストリーム内の単語認識の手法は何ですか?

私はこれについて非常に興味があります。

大まかに言えば、次のことをどのように行うのでしょうか。

  • 単語区切りの検出。
  • 音節の検出。
  • 通常の音声単語接続を補正します。
0 投票する
11 に答える
69673 参照

c# - C# 音声認識 - これはユーザーが言ったことですか?

単語やフレーズを表示し、ユーザーがそれを読んだとき(またはその近似値)を認識できる、組み込みのビスタまたはサードパーティの音声認識エンジンを使用するアプリケーションを作成する必要があります)。また、オペレーティング システムの言語を変更せずに、言語をすばやく切り替える必要もあります。

ユーザーは非常に短期間システムを使用します。アプリケーションは、最初に認識エンジンをユーザーの声に合わせてトレーニングする必要なく動作する必要があります。

これが Windows XP 以下のバージョンの Windows Vista で動作することも素晴らしいことです。

必要に応じて、システムは、ユーザーが選択した言語で、画面上の情報をユーザーに読み上げることができる必要があります。事前に録音されたナレーションを使用してこの仕様を回避することはできますが、推奨される方法はテキスト読み上げエンジンを使用することです。

誰かが私に何かを勧めることができますか?

0 投票する
3 に答える
7428 参照

c# - 質問SpeechSynthesizer.SetOutputToAudioStreamオーディオ形式の問題

私は現在、特定のオーディオ形式にエンコードされた音声の送信を必要とするアプリケーションに取り組んでいます。

これは、オーディオがPCM形式、1秒あたり8000サンプル、1サンプルあたり16ビット、モノラル、1秒あたり平均16000バイト、2のブロックアライメントであることを示しています。

次のコードを実行しようとすると、MemoryStreamインスタンスに何も書き込まれません。ただし、毎秒8000サンプルから11025まで変更すると、オーディオデータは正常に書き込まれます。

8000のサンプルレートを使用したときに記録された例外やエラーはなく、SetOutputToAudioStreamに関するドキュメントで有用なものが見つからず、8000ではなく11025サンプル/秒で成功する理由があります。wavファイルを含む回避策があります。いくつかのサウンド編集ツールを使用して生成され、正しいサンプルレートに変換されましたが、可能であれば、アプリケーション内からオーディオを生成したいと思います。

特に興味深い点の1つは、SpeechRecognitionEngineがそのオーディオ形式を受け入れ、合成されたWaveファイル内の音声を正常に認識したことです...

更新:最近、このオーディオ形式はインストールされている特定の音声では成功しますが、他の音声では失敗することがわかりました。特にLHMichaelとLHMichelleで失敗し、PromptBuilderで定義された特定の音声設定で失敗が異なります。