問題タブ [cmusphinx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
voice-recognition - 音声依存の音声認識
組み込み機器向けの音声依存型音声認識ソリューションのソリューションを検討しています。私はpocketsphinxを見てきましたが、まだ慣れていないので、もっと経験豊富な人が知っているかもしれないと思いました。そのような音声認識を実装するためにpocketsphinxを使用することは可能ですか?音響モデルと言語モデルを使用するのではなく、音声を録音し、その特徴を抽出して、話されているものと一致させる必要があります。Pocketsphinxを使用してこのフローを実装することは可能ですか?そうでない場合、誰かが私にそのような解決策の正しい方向を示すことができますか?ありがとうございました。
android - Windows 上の Android で Pocketsphinx をビルドする
私はこのBuilding PocketsphinxをAndroidで何日もフォローしてきましたが、今何をすべきか非常に混乱しています。私が行ったことを段階的に説明するので、私が何を間違えたかがわかります。
Windows 7 64 ビットを使用しています。
まず、PocketSphinxとSphinxbaseをダウンロードし、.zipで解凍しましたC:\Sphinx
。次に、MINGW DOWNLOAD から mingw をダウンロードしました。このようなものをダウンロードした後、私は mingw.exe を開始しました。アマチュアとして、試したsudo -i
だけで何も起こらなかったので、swigをインストールする次の手順に進みました。
入力しようapt-get install swig
とyum install swig
しましたが、前回と同じように機能しませんでした。それから私は試してみmingw-get install swig
ましたが、結果はmingw-get.exe: *** ERROR *** swig: unknown package
です。それで、次の sphinxbase のインストールを再試行しました。
sphinxbase をインストールする際に、sphinxbase ディレクトリに移動しC:\Sphinx\sphinxbase
、./autogen.sh
. それで問題なくコンパイルされ、私は./configure
それもうまくコンパイルされたと入力しました。次はmake
、ここで問題が発生しました。コンパイルしましたが、エラーが発生しました。エラーは次のとおりです。
これは私が今まで得た問題です。次に、 pio.lo downloadpio.lo
からダウンロードしてみました。したがって、エラーは修正されますが、別のエラーが表示されます。2 番目のエラー:
ここで行き詰まりました。sphinx_fe
からコピーしようとしましsphinxbase-0.7-win32.zip
たが、何も起こりません。コンパイルでは、sphinx_fe.exe
.
私の質問は、私は今何をすべきですか?
不明な点がある場合は、お気軽にコメントして質問してください。お手伝いありがとう。
speech-recognition - Sphinx を拡張してローカル言語をサポートする
最初は、母国語をサポートするために、音声認識エンジンをゼロから作成することを考えていました (50 ~ 100 語をサポート)。
しかし、いくつかの調査の結果、非常に限定的なサポートでも 1 年半で音声認識エンジンを作成することは不可能であることが明らかになりました。
現在、自分の言語をサポートするためにスフィンクス エンジンを拡張することを考えていました。1.5年でできるのか、それとも最終年度のプロジェクトとしてはやり過ぎなのか。
この件に関して、あなたの経験談を心待ちにしています。
java - スフィンクスを使用してJSGF文法からタグを取得するにはどうすればよいですか?
CloudGarden APIを利用してJSAPI文法を解析し、文法規則からタグを返し、それに応じてこれらのタグを処理するアプリケーションをJavaで作成しました。CloudGarden APIの問題は、Windowsへの依存です。同じタスクを実行できるクロスプラットフォームライブラリが必要です。音声合成も音声認識も必要ありません。基本的に、文字列は、文字起こしされた音声を含むプログラムに渡されます。アクションタグ(JSGF文法ルールの{}の間のテキスト)を取得するには、この文字列を文法ファイルに対して解析する必要があります。次に、私のプログラムは、取得したアクションタグを使用して他の機能を実行します。
JSAPIに準拠したJSGF文法ファイルを解析できる無料のライブラリを探していました。私が見つけた唯一の現実的な代替手段は、音声認識エンジンであるSphinx/CMUSphinxでした。私はSphinxを調べていて、ドキュメントのActionTagsParserクラスに移動しました。文法を解析してタグを取得する方法がわかりません。誰かが私を正しい方向に向けたり、説明したりできますか?
ありがとう、ノア
編集:
文法を解析するためにSphinxを構成する必要がありますか?次のコードでは、RuleParseは常にNULLと評価されます。RuleGrammarとテキストは有効です。
java - Sphinx を使用して RuleGrammar.listRuleNames() を呼び出したときの StackOverflowError
Sphinx を使用して文法ファイルを解析しています。
すべての文法ファイルをロードする関数があります。この関数は、プログラムの開始時と、ユーザーが を要求するたびに呼び出されますreload
。最初に呼び出されたときに機能します。は、このStackOverflowError
関数に対して後続の呼び出しが行われたときに発生します。エラーの原因となっている関数内の特定の行は、gram.listRuleNames()
行、具体的には のメソッドですRuleGrammar listRuleNames()
。
なぜこれが起こっているのか、誰にも考えがありますか?
関数:
エラー:
いくつかのデバッグの後recognizer.deleteRuleGrammar(rg)
、古い文法が削除されていないことに気付きました。
loadJSGF()
2 回呼び出すとStackOverflowError
. レコグナイザーが古い文法を削除しないことに関係があると思います。
web-services - Web アプリケーション用 CMUSphinx
音声認識ベースの Web を作成しようとしています。いくつか検索した結果、cmusphinx は音声認識アプリケーションに非常に適したライブラリであることがわかりました。そして私の問題は、cmusphinx と web の間でどのように通信できるかです。これがばかげた質問である場合は申し訳ありません。
ご助力いただきありがとうございます !
android - PocketSphinxで文法外の単語を確実に拒否する方法
私はAndroidでPocketsphinxDemoを正常に使用しています。認識できる単語のセットは非常に限られています。たとえば、3つの異なる単語です。私は現在、多くの誤検知を受け取ります-話している間、Pocketsphinxは私の3つの単語の1つを認識しますが、それらは話されていません。
私はpocketsphinxが使用しているパラメータのリファレンスを見つけることができないので、ここに私の質問があります:
Pocketsphinxの反応をより制限的にするためのパラメーターはありますか?
Pocketsphinxが正しい単語と一致することが非常に「確実」である場合にのみ、認識の推測を返すようにします。
現在使用しているデフォルトのパラメータは次のとおりです。
audio - 音声/話者認識用の CMU Sphinx
私は、既知のデータセットを照合する方法を探しています。たとえば、MP3 ファイルまたは wav ファイルのリストで、それぞれが誰かが話しているサンプルです。この時点で、私はファイル ABC が人物 X が話していることを知っています。
次に、別のサンプルを取得し、既知のデータ セットが与えられた場合に、この声が誰の可能性が最も高いかを示すために、いくつかの音声マッチングを行います。
また、一致するものを見つけることができる限り、その人が何を言ったかは必ずしも気にしません。つまり、転記などは必要ありません。
CMU Sphinx が音声認識を行わず、主に音声からテキストへの変換に使用されることは承知していますが、他のシステムも見たことがあります。たとえば、LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization) または VoiceID プロジェクト (https://code.google.com/p/voiceid/) は、CMU をこの種の作業のベースとして使用します。
CMU を使用する場合、どのようにボイス マッチングを行うことができますか?
また、CMU Sphinx が最適なフレームワークではない場合、オープン ソースの代替フレームワークはありますか?
python - Python と Pocketsphinx によるライブ認識
私は最近、Pythonでポケットスフィンクスを扱っています。以下の例で、録音された wav を認識することに成功しました。
問題は、マイクからリアルタイムの音声認識を行うにはどうすればよいかということです。if ステートメントを使用した while ループで、設定された単語がマイクから認識された場合に関数を呼び出すことができますか?