問題タブ [cmusphinx]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
718 参照

speech-recognition - 数字以外の認識にhtkを使用する

私は音声認識アプリケーションにsphinx4と組み合わせたHTkを使用しようとしています。私は入力をwavファイルとして提供しており、スフィンクスが提供する「Transcriberdemo」と「LatticeDemo」を使用していますが、出力はほとんど受け入れられませんでした。そこで、Sphinx4でHTKを導入することにしました。しかし、結果の出力は何マイルも離れているように見えます。私がやっていることよりも、構成をさらに微調整できると確信しています。私は、htkとsphinx4の使用に関連するチュートリアルがあるかどうかを調べるためによく検索しました。この素晴らしいブログ(http://nsh.nexiwave.com/2009/09/using-htk-models-in-sphinx4.html)を除けば、私は他に何も見つけていません。誰かが私の認識精度を向上させるためにここで私を助けてくれますか?

私の設定ファイルはsphinxです:

どんな助けでも本当にありがたいです

0 投票する
1 に答える
12200 参照

java - 音声ファイルに音声を転写するためのオープンソースソフトウェア

誰かがwavファイルで英語のスピーチを転写するための信頼できるオープンソースソフトウェアをお勧めできますか?私が研究した2つの主要なプログラムはSphinxJuliusですが、どちらも機能させることができず、ファイルの転写に関するそれぞれのドキュメントはせいぜい大ざっぱです。

私は64ビットのUbuntu10.04で開発しています。そのリポジトリには、sphinx2とjulius、およびvoxforgeの英語用のjuliusアコースティックモーダルが含まれています。私は、マイクからのサウンドを直接処理するのではなく、ファイルの転写に焦点を合わせています。これは、このようなプロジェクトがUbuntuのサウンドシステムで機能することを期待することを諦めたためです。Audacityを使用してマイクでサウンドを完全に録音できるので、これはUbuntuに対するノックではありませんが、どちらのシステムもマイクにアクセスできないようです。ファイルから読み取るだけで、簡単に設定できることを望んでいます。

私は最初にUbuntuパッケージsphinx2-binからSphinx2を試しました。サンプルのsphinx2-demoはファイルの転写で機能しているように見えますが、構成に関するドキュメントは事実上ないため、任意のwavから読み取るようにこれをカスタマイズする方法がわかりません。デモで使用されているオーディオファイルは、文書化されていない「16k」形式であり、2つの構成ファイルを介して間接的に参照されます。sphinx2-demoをsphinx2-batchを実行していると説明する簡単な宣伝文句がありますが、スクリプトを調べると、実際にはsphinx2-continuousを呼び出していることがわかります。さらに悪いことに、各スクリプトの--help docsには、約6ダースのオプションがリストされており、必須またはオプションについては言及されていません。全体として、スフィンクスのドキュメントが不足していることと、既存のドキュメントの品質が低いことが、私を悩ませています。

次に、Voxforgeのクイックスタートで使用されているバージョンが3.5であることを考慮して、驚くほど最近のUbuntuパッケージ(4.1)からJuliusを試しました。パッケージには、わずかに優れたドキュメントと、Pythonで記述された例(/ usr / share / doc / julius-voxforge / examples / controlapp)が含まれているようです。例のドキュメントを読んだ後filelist.txt、同じ名前のファイルを参照する「hello.wav」というテキストを含むファイルを作成し、「こんにちは」と言っている人の録音を含むファイルを作成して、ファイルから読み取るように調整してみました。これらを同じディレクトリに配置して、次のコマンドを実行しました。

応答を取得する:

filelist.txtとhello.wavに絶対ファイル名を指定して再試行すると、同じエラーが発生します。

また、マイクから直接録音するために、例で使用されているJulius呼び出しを試しました。

私はこれを数回呼び出しましたが、応答はエラー間で異なりました。

と:

後者の場合、マイクに何を言っても何も起こりません。それでもマイクが読めないのか、何かを読んでいるのかはわかりませんが、音声を書き写すことができません。

これをどうすればいいのかわかりません。私が受けているエラーは、私に多くのことを続けることを任せません。なぜwavを読めないのですか?なぜ/dev/ dspを読み取れないのですか?なぜ/dev/ dspを読み取ることができるように見えるのに、まったく反応しないのですか?

特にLinuxで、オープンソースの音声認識機能で成功した人はいますか?

0 投票する
2 に答える
1553 参照

java - Java で連続バッチ処理を実行する

マイクを聞いてテキストに変換する操作を実行するバッチ ファイルがあります (ポケット スフィンクスを使用しています)。

バッチ ファイルを実行するために使用しているコマンドはpocketsphinx_continuous.exe -dict <dict name> -lm <language model> -hmm <acoustic model location>. バッチ ファイルが始まり、マイクを聞き続けます。文章を話し終えると、コマンド プロンプトでテキストに変換されます。これは継続的に実行されているため、このタスクはCtrl-で終了しますC

これをスタンドアロンのJavaアプリケーションにしようとしていました。このバッチ ファイルを Java で実行したかったのでRuntime.getRuntime().exec("cmd /c start pocketsphinx_continuous.exe ...")、すべてのパラメーターを使用しました。ただし、奇妙なことに、別のコマンド プロンプトでバッチ プロセスを開始しますが、すぐに終了します。を使用しようとしましたprocess.waitfor()が、バッチ処理の実行を開始して終了するだけです。に電話process.destroyしたことがないので、バッチ プロセスを終了する理由がわかりません。

もう 1 つの質問は、バッチ ファイルが継続的に実行されているためです。話されたすべての文が書き起こされた後、Java アプリケーションで出力を取得したいと考えています。バッチプロセスをファイルにリダイレクトしてからファイルを読み取ることができることはわかっていますが、より直接的なプロセスがあるかどうか疑問に思っていました。どこが間違っているのか教えてください。

0 投票する
1 に答える
1117 参照

android - Android 用のポケットフィンクスのコンパイル エラー

Android 用の pocketphinx をコンパイルしようとしていますが、コンパイル中に次のエラーが発生します。

http://cmusphinx.sourceforge.net/2011/05/building-pocketsphinx-on-android/comment-page-1/に記載されているすべての手順に従いました

ファイル pocketphinx_wrap.odorg は存在しませんが、指定された場所に pocketphinx_wrap.od が存在します。

pocketphinx_wrap.od を pocketphinx_wrap.odorg にコピーし、それぞれに rwx 権限を与えました。それでもエラーが発生します。

ただし、アプリケーションを実行すると実行され、logcat に次のエラーが表示されます

他の誰かが同様の問題に遭遇しましたか? これはファイルのアクセス許可と何か関係があるのでしょうか、それともエラーが発生したためにファイルの名前が間違って設定されているのでしょうか?

前もって感謝します!!

0 投票する
2 に答える
445 参照

android - 音声をテキストに変換するための API。

音声からテキストへの変換 API をインターネットで調べました。CMUSphinx、Android 組み込み API (レベル 3)、および pygooglevoice が存在します。

その中で最も正確なのはどれですか? (モバイル プラットフォームで使用する API を探しています)。

ありがとう。

0 投票する
1 に答える
969 参照

speech-recognition - Pocketshpinxでの取得音声時間を短縮する方法

タイトルとして、組み込みデバイスにpocketshpinxを搭載した音声認識システムに取り組んでいます。組み込みデバイスにpocketshpinxをインストールしていますが、取得音声時間が非常に遅く、認識結果が悪いです。アプリケーションの実行中、取得音声時間はcompute_frame_powに約5000nsかかりますが、それは必要ですか?計算速度を改善するにはどうすればよいですか?

0 投票する
3 に答える
4636 参照

android - パッケージ名を変更すると JNI が破損する

アプリに pocketphinx パッケージを使用しようとしていますが、デモ パッケージの名前を便利な名前に変更する必要があります (例: com.myname.foo)。

私は理解するのに何時間も費やしましたが、それを機能させることができません。

問題は、パッケージ名をそのままにして問題なく動作する場合 (ランダムなクラッシュは別として)、プロジェクトが正常に動作することですが、名前を変更するとエラーが発生することです。

すでに Swig コマンドを変更しようとしましたが、うまくいきませんでした。

何か案は?

マニフェストのパッケージ名の宣言と、通常のアクティビティのパッケージ フォルダーを変更しただけです。

0 投票する
2 に答える
2841 参照

cmusphinx - CMU スフィンクスのドイツ語発音辞書

PocketSphinx / CMU Sphinx で使用するドイツ語の発音辞書を探しています。

辞書は次のようになります。

これらを英語で見つけるのは問題ありませんが、ドイツ語で見つけることができません。どこで見つけられるか分かりますか?

0 投票する
1 に答える
255 参照

iphone - ポケットフィンクス構成のエラー

Macでポケットフィンクスの設定を開始すると、SphinxBaseでこのコマンドを使用してターミナルで3つのエラーが発生しました

これらはエラーです

bitvec.lo エラー 1
インストール再帰エラー 1
インストール再帰エラー 1
インストール再帰エラー 1

どうすれば修正できますか?

0 投票する
1 に答える
1190 参照

java - Java用のCMU Sphinxローカルlmtoolはありますか?

単語を Arpabet 翻訳に変換したい。

何かのようなもの:

しかし、Javaでプログラム的に実行したいのですが、sphinxはhttp://www.speech.cs.cmu.edu/tools/lmtool.htmlでWebツールを提供しています。ソケットを使用して Java でこのツールを要求し、返された .dic ファイルをスニッフィングできることはわかっていますが、アプリのすべてのユーザーがインターネットに接続しているわけではないため、これを使用することはできません。

Sphinx の logios パッケージもチェックアウトしましたが、perl とバッチ ファイルで記述されています。使用できますが、アプリをプラットフォームに依存しないようにしたいので、プロジェクトに perl シェルを含めると少しやり過ぎだと思います。

再利用できるJavaライブラリまたはアルゴリズムがある場合は、次のようなことを行うだけでConvertToSphinxArpabet("HELLO")、「HH AH L OW」文字列が返されます。