“speech-to-text”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

667 参照

permissions - Julius Speech Recognition を Wav ファイルで実行すると無効な権限が発生する

Juliusを使用して、話し言葉を含む Wav ファイルをそれらの言葉を含むテキストファイルに変換するにはどうすればよいですか? Julius Bookを読み、VoxforgeでJulius クイックスタートリリースをダウンロードしました。ドキュメントから、処理したいWavファイルを別のファイルにリストし、そのファイルのファイル名をfilelistパラメーターを介してJuliusに渡すと思います。

たとえば、julius実行ファイルとその他のクイックスタートファイル (文法ファイル、conf など) は /home/myuser/test にあり、すべての Wav ファイルは /home/myuser/test/audio にあります。julius私のユーザーが所有しており、実行権限があり、すべてのオーディオファイルには 777 権限があります。/home/myuser/test/audio/filelist.txt にファイルリストがあり、次のような行があります。

ただし、実行すると:

エラーが発生します：

ファイルにアクセスできない理由がわかりません。私のユーザーが所有し、私のユーザーとして実行され、私のユーザーが所有するファイルを読み取ります。

Julius がこのエラーを表示するのはなぜですか?

2011-09-29T19:13:16.577

0 投票する

1 に答える

12200 参照

java - 音声ファイルに音声を転写するためのオープンソースソフトウェア

誰かがwavファイルで英語のスピーチを転写するための信頼できるオープンソースソフトウェアをお勧めできますか？私が研究した2つの主要なプログラムはSphinxとJuliusですが、どちらも機能させることができず、ファイルの転写に関するそれぞれのドキュメントはせいぜい大ざっぱです。

私は64ビットのUbuntu10.04で開発しています。そのリポジトリには、sphinx2とjulius、およびvoxforgeの英語用のjuliusアコースティックモーダルが含まれています。私は、マイクからのサウンドを直接処理するのではなく、ファイルの転写に焦点を合わせています。これは、このようなプロジェクトがUbuntuのサウンドシステムで機能することを期待することを諦めたためです。Audacityを使用してマイクでサウンドを完全に録音できるので、これはUbuntuに対するノックではありませんが、どちらのシステムもマイクにアクセスできないようです。ファイルから読み取るだけで、簡単に設定できることを望んでいます。

私は最初にUbuntuパッケージsphinx2-binからSphinx2を試しました。サンプルのsphinx2-demoはファイルの転写で機能しているように見えますが、構成に関するドキュメントは事実上ないため、任意のwavから読み取るようにこれをカスタマイズする方法がわかりません。デモで使用されているオーディオファイルは、文書化されていない「16k」形式であり、2つの構成ファイルを介して間接的に参照されます。sphinx2-demoをsphinx2-batchを実行していると説明する簡単な宣伝文句がありますが、スクリプトを調べると、実際にはsphinx2-continuousを呼び出していることがわかります。さらに悪いことに、各スクリプトの--help docsには、約6ダースのオプションがリストされており、必須またはオプションについては言及されていません。全体として、スフィンクスのドキュメントが不足していることと、既存のドキュメントの品質が低いことが、私を悩ませています。

次に、Voxforgeのクイックスタートで使用されているバージョンが3.5であることを考慮して、驚くほど最近のUbuntuパッケージ（4.1）からJuliusを試しました。パッケージには、わずかに優れたドキュメントと、Pythonで記述された例（/ usr / share / doc / julius-voxforge / examples / controlapp）が含まれているようです。例のドキュメントを読んだ後filelist.txt、同じ名前のファイルを参照する「hello.wav」というテキストを含むファイルを作成し、「こんにちは」と言っている人の録音を含むファイルを作成して、ファイルから読み取るように調整してみました。これらを同じディレクトリに配置して、次のコマンドを実行しました。

応答を取得する：

filelist.txtとhello.wavに絶対ファイル名を指定して再試行すると、同じエラーが発生します。

また、マイクから直接録音するために、例で使用されているJulius呼び出しを試しました。

私はこれを数回呼び出しましたが、応答はエラー間で異なりました。

と：

後者の場合、マイクに何を言っても何も起こりません。それでもマイクが読めないのか、何かを読んでいるのかはわかりませんが、音声を書き写すことができません。

これをどうすればいいのかわかりません。私が受けているエラーは、私に多くのことを続けることを任せません。なぜwavを読めないのですか？なぜ/dev/ dspを読み取れないのですか？なぜ/dev/ dspを読み取ることができるように見えるのに、まったく反応しないのですか？

特にLinuxで、オープンソースの音声認識機能で成功した人はいますか？

java python speech-recognition speech-to-text cmusphinx

2011-09-30T16:06:44.193

0 投票する

1 に答える

1093 参照

api - Speech to Text API（非モバイル）

ユーザーからマイクを介して音声を取り込み、発言内容をテキストに変換してさらに操作するプログラムを作成しようとしています。

私はグーグルがそのようなものを持っていることを知っています、しかしそれはAndroid開発者のためであり、私はクローム拡張のようなものを作ろうとしています（クローム拡張は私が想像したものですが、私は代替案を受け入れています）。

Mac OSX NSSpeechRecognizerを見てきましたが、事前に限定された文法を指定する必要があるため、より包括的なものが必要です。

ユーザーがマイクに向かって何を言うかを予測したり、予測したりすることはできません（ただし、英語であると想定できます）。

api google-chrome-extension speech-to-text

2011-10-14T07:56:17.200

0 投票する

1 に答える

4801 参照

speech-recognition - 本番環境で Google Speech API を使用している人はいますか?

Google Speech API の使用方法を説明している記事 ( http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/ ) を見つけました。

しかし、これは信頼できますか？誰もそれを本番環境で使用していますか?

ありがとう

speech-recognition speech-to-text

2011-10-24T18:03:32.297

0 投票する

4 に答える

2435 参照

c# - SAPI でコマンドを通常の音声と区別して発行する

私は、口頭でコマンドを発行できるマイクをアパートに設置するという個人的なプロジェクトに取り組んでいます。これを実現するために、私は Microsoft Speech API を使用してきました。具体的には、C# の System.Speech.Recognition の RecognitionEngine を使用しています。次のように文法を構築します。

これは、実際にコマンドを与える場合にはかなりうまくいくようです。私のコマンドの 1 つをまだ誤認していません。残念ながら、ランダムな会話をコマンドとして拾う傾向もあります! コマンドChoicesオブジェクトの前に「名前」(認識システム名) を付けることで、これを改善しようとしました。奇妙なことに、これは役に立たないようです。あらかじめ決められた一連のコマンドフレーズに制限しているので、音声が文字列ではないかどうかを検出できると考えていたでしょう。私の推測では、すべてのサウンドがコマンドであると想定し、コマンドセットから最適なものを選択していると思われます。このシステムを改善して、このシステムに向けられていない会話がトリガーされないようにするためのアドバイスは非常に役に立ちます。

編集:名前認識エンジンを別の SpeechRecognitionEngine に移動しましたが、精度はひどいです。精度を調べるために書いたテストコードを次に示します。

名前が "Octavian" の場合、"Octopus"、"Octagon"、"Volkswagen"、"Wow, really?" などを認識します。関連するオーディオクリップの違いがはっきりと聞こえます。これをひどくしないようにするためのアイデアは素晴らしいでしょう。

c#speech-recognition sapi speech-to-text noise

2011-10-31T15:12:18.390

0 投票する

2 に答える

4978 参照