問題タブ [speech-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
permissions - Julius Speech Recognition を Wav ファイルで実行すると無効な権限が発生する
Juliusを使用して、話し言葉を含む Wav ファイルをそれらの言葉を含むテキスト ファイルに変換するにはどうすればよいですか? Julius Bookを読み、VoxforgeでJulius クイックスタート リリースをダウンロードしました。ドキュメントから、処理したいWavファイルを別のファイルにリストし、そのファイルのファイル名をfilelistパラメーターを介してJuliusに渡すと思います。
たとえば、julius
実行ファイルとその他のクイックスタート ファイル (文法ファイル、conf など) は /home/myuser/test にあり、すべての Wav ファイルは /home/myuser/test/audio にあります。julius
私のユーザーが所有しており、実行権限があり、すべてのオーディオ ファイルには 777 権限があります。/home/myuser/test/audio/filelist.txt にファイルリストがあり、次のような行があります。
ただし、実行すると:
エラーが発生します:
ファイルにアクセスできない理由がわかりません。私のユーザーが所有し、私のユーザーとして実行され、私のユーザーが所有するファイルを読み取ります。
Julius がこのエラーを表示するのはなぜですか?
java - 音声ファイルに音声を転写するためのオープンソースソフトウェア
誰かがwavファイルで英語のスピーチを転写するための信頼できるオープンソースソフトウェアをお勧めできますか?私が研究した2つの主要なプログラムはSphinxとJuliusですが、どちらも機能させることができず、ファイルの転写に関するそれぞれのドキュメントはせいぜい大ざっぱです。
私は64ビットのUbuntu10.04で開発しています。そのリポジトリには、sphinx2とjulius、およびvoxforgeの英語用のjuliusアコースティックモーダルが含まれています。私は、マイクからのサウンドを直接処理するのではなく、ファイルの転写に焦点を合わせています。これは、このようなプロジェクトがUbuntuのサウンドシステムで機能することを期待することを諦めたためです。Audacityを使用してマイクでサウンドを完全に録音できるので、これはUbuntuに対するノックではありませんが、どちらのシステムもマイクにアクセスできないようです。ファイルから読み取るだけで、簡単に設定できることを望んでいます。
私は最初にUbuntuパッケージsphinx2-binからSphinx2を試しました。サンプルのsphinx2-demoはファイルの転写で機能しているように見えますが、構成に関するドキュメントは事実上ないため、任意のwavから読み取るようにこれをカスタマイズする方法がわかりません。デモで使用されているオーディオファイルは、文書化されていない「16k」形式であり、2つの構成ファイルを介して間接的に参照されます。sphinx2-demoをsphinx2-batchを実行していると説明する簡単な宣伝文句がありますが、スクリプトを調べると、実際にはsphinx2-continuousを呼び出していることがわかります。さらに悪いことに、各スクリプトの--help docsには、約6ダースのオプションがリストされており、必須またはオプションについては言及されていません。全体として、スフィンクスのドキュメントが不足していることと、既存のドキュメントの品質が低いことが、私を悩ませています。
次に、Voxforgeのクイックスタートで使用されているバージョンが3.5であることを考慮して、驚くほど最近のUbuntuパッケージ(4.1)からJuliusを試しました。パッケージには、わずかに優れたドキュメントと、Pythonで記述された例(/ usr / share / doc / julius-voxforge / examples / controlapp)が含まれているようです。例のドキュメントを読んだ後filelist.txt
、同じ名前のファイルを参照する「hello.wav」というテキストを含むファイルを作成し、「こんにちは」と言っている人の録音を含むファイルを作成して、ファイルから読み取るように調整してみました。これらを同じディレクトリに配置して、次のコマンドを実行しました。
応答を取得する:
filelist.txtとhello.wavに絶対ファイル名を指定して再試行すると、同じエラーが発生します。
また、マイクから直接録音するために、例で使用されているJulius呼び出しを試しました。
私はこれを数回呼び出しましたが、応答はエラー間で異なりました。
と:
後者の場合、マイクに何を言っても何も起こりません。それでもマイクが読めないのか、何かを読んでいるのかはわかりませんが、音声を書き写すことができません。
これをどうすればいいのかわかりません。私が受けているエラーは、私に多くのことを続けることを任せません。なぜwavを読めないのですか?なぜ/dev/ dspを読み取れないのですか?なぜ/dev/ dspを読み取ることができるように見えるのに、まったく反応しないのですか?
特にLinuxで、オープンソースの音声認識機能で成功した人はいますか?
api - Speech to Text API(非モバイル)
ユーザーからマイクを介して音声を取り込み、発言内容をテキストに変換してさらに操作するプログラムを作成しようとしています。
私はグーグルがそのようなものを持っていることを知っています、しかしそれはAndroid開発者のためであり、私はクローム拡張のようなものを作ろうとしています(クローム拡張は私が想像したものですが、私は代替案を受け入れています)。
Mac OSX NSSpeechRecognizerを見てきましたが、事前に限定された文法を指定する必要があるため、より包括的なものが必要です。
ユーザーがマイクに向かって何を言うかを予測したり、予測したりすることはできません(ただし、英語であると想定できます)。
speech-recognition - 本番環境で Google Speech API を使用している人はいますか?
Google Speech API の使用方法を説明している記事 ( http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/ ) を見つけました。
しかし、これは信頼できますか?誰もそれを本番環境で使用していますか?
ありがとう
c# - SAPI でコマンドを通常の音声と区別して発行する
私は、口頭でコマンドを発行できるマイクをアパートに設置するという個人的なプロジェクトに取り組んでいます。これを実現するために、私は Microsoft Speech API を使用してきました。具体的には、C# の System.Speech.Recognition の RecognitionEngine を使用しています。次のように文法を構築します。
これは、実際にコマンドを与える場合にはかなりうまくいくようです。私のコマンドの 1 つをまだ誤認していません。残念ながら、ランダムな会話をコマンドとして拾う傾向もあります! コマンドChoicesオブジェクトの前に「名前」(認識システム名) を付けることで、これを改善しようとしました。奇妙なことに、これは役に立たないようです。あらかじめ決められた一連のコマンド フレーズに制限しているので、音声が文字列ではないかどうかを検出できると考えていたでしょう。私の推測では、すべてのサウンドがコマンドであると想定し、コマンド セットから最適なものを選択していると思われます。このシステムを改善して、このシステムに向けられていない会話がトリガーされないようにするためのアドバイスは非常に役に立ちます。
編集:名前認識エンジンを別の SpeechRecognitionEngine に移動しましたが、精度はひどいです。精度を調べるために書いたテストコードを次に示します。
名前が "Octavian" の場合、"Octopus"、"Octagon"、"Volkswagen"、"Wow, really?" などを認識します。関連するオーディオ クリップの違いがはっきりと聞こえます。これをひどくしないようにするためのアイデアは素晴らしいでしょう。
html - Web ページのテキスト ボックスのテキスト ボタンへの音声合成
ウェブページのテキストボックスに Google のテキスト変換ボタンを機能させることは可能ですか?
どうすればそれができますか?
html - Chrome拡張ポップアップで音声Webkitを機能させるには?
このような単純なコード
HTML ページで正しく動作します。
Google Chrome 拡張機能のポップアップで同じコードを使用しようとしています。しかし、マイク アイコンをクリックしても、ポップアップで何も起こりません。
ポップアップにこのようなコードを使用する場合、いくつかの制限はありますか? それとも、他に何か不足していますか?
api - Text-Speech 用の API はありますか?
プロジェクト用のText-Speech APIを探していますが、無料のものを探しているため、適切な API が見つかりませんでした。
iSpeechを見つけました。モバイル開発者は無料ですが、Web 開発者は料金を支払う必要があります。
Google Text Speechを試しましたが、100 文字に制限されています。
このようなText-Speech用のAPIを知っていますか?
ありがとう。
c# - C# system.speech.recognition 代替
多くの単語から 1 つの単語を認識するために、system.speech.recognition を使用しています。精度があまり良くないので、エンジンの選択肢をもっと検討したいです。
ただし、e.Result.Alternates には、e.Result.word と同じ結果が 1 つしか含まれていません。エンジンに強制的にオプションを追加させる方法はありますか? ありがとうございました!