問題タブ [pocketsphinx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - PocketSphinx キーワード検出の文法ファイルにしきい値を設定する
このスレッドの作成者が行った/解決したことを正確に実行しようとしています:
彼は、文法ファイルにない単語の検出を避けるために、文法ファイルは次のようにする必要があると言います。
....しかし、このままではうまくいきません。私はこのようにすることができます:
しかし、これは何も変更しません。/1.0/ も何も変更しません。左/右として誤った単語を検出し続けます。
各単語 (著者など) の右側にしきい値を設定すると、アプリがクラッシュします。
誰かがこれについて私を助けることができますか?
アップデート:
関数 setupRecognizer(File assetsDir) で addKeywordSearch を使用して解決しました。私の場合は、PocketSphinx-Demo addGrammarSearch のようでした。完全を期すために(リンクされた質問の作成者のsetupRecognizer関数と同じように):
文法ファイルが(著者が投稿したように)次のように見える場合、それは機能します:
java - Android でポケットフィンクスを使用して音素認識を追加する方法
私は Cued Speech に関するプロジェクトに取り組んでいます (キュード スピーチは、聴覚障害者や難聴者との間で使用される視覚的なコミュニケーション システムです)。これは、伝統的に話されている言語を、口の近くのさまざまな場所 (母音を表す) にある手がかり (子音を表す) と呼ばれる少数の手形を使用して、読み上げの補助として利用できるようにする音素ベースのシステムです。
私はすでに音素認識(pocketsphinx_continuous)、アンドロイドのポケットフィンクスに関するチュートリアルに従っており、機能しています。私は今のところ Android で作業していますが、このプロジェクトの最終的な目標は、Google グラスで動作させることです。最良のケースは、識別された音素に従って正しい手の構成と唇の動きを再現する音声 (リアルタイムに近い) と 3D のアバターをデバイスに書き込むことです。(そのため、単語そのものではなく、音素を扱う必要があります)
http://cmusphinx.sourceforge.net/wiki/phonemerecognitionを読みましたが、フランス語の音素用に独自の「ファイル」を作成して Android で動作させる方法についてかなり混乱しています。
手順は?どのようなファイルを作成すればよいですか?
つまり、音声入力のある Android の音素で pocketphinx_continuous と同じ結果が得られる可能性はありますか?
あなたが私を案内してくれることを願っています!
ギヨーム
c - Sphinxbase の make/install の失敗
このチュートリアルで詳しく説明されているように、Debian Jessie に sphinxbase と pocketphinx をインストールしようとしていますが、sphinxbase のインストール中に実行make check
すると失敗します。これが、後でポケットフィンクスをインストールできないことにつながっていると思います。適切なログを確認すると、エラーの原因が明らかになります。
cmd_ln.ca を少し調べてみたところ、問題のある行が win32 関連の #ifndef にあるように見えますが、この状況では関係ないのでしょうか? わからない。
他の誰かがこの問題を抱えていましたか、それとも他の誰かが私のために主題に光を当てることができますか?
cmusphinx - Sphinx を使用して、フレーズ内の話し言葉の開始/終了時間を特定する
フレーズ内の個々の単語の開始/終了時間を特定しようとしています。フレーズと発話のテキストの WAV ファイルがあります。
これら 2 つのデータ (オーディオ、テキスト) を組み合わせて Sphinx の認識能力を向上させるインテリジェントな方法はありますか? 出力として欲しいのは、フレーズ内の各単語の正確な開始/停止時間です。
(ポケットスフィンクスに渡して、探している時間データを取得できることは知っていますが-time yes
、音声認識自体はあまり正確ではありません。)
私が扱っているコーパスにはさまざまな話者が含まれているため、解決策は特定の話者には当てはまりません。ただし、彼らはすべて米国英語を使用しています。
cmusphinx - pocketphinx_continuous 実行時のエラー: 音響モデル定義が指定されていません
を実行するpocketsphinx_continuous -inmic yes
と、次のエラーが表示されますERROR: "acmod.c", line 85: Acoustic model definition is not specified neither with -mdef option nor with -hmm
。
この StackOverflow questionとPocketsphinx FAQの情報は既に読んでいますが、どちらも役に立ちませんでした。
完全なスタック トレースは次のとおりです。
pocketphinx-ruby gemを使用してアプリを構築しています。OS X には既に正常にインストールされていますが、Linux Mint 17 を実行している自宅のコンピューターにインストールしようとしています。最初はソースからコンパイルしましたが、オーディオ ライブラリが認識されないという問題が発生しました。であるため、代わりに Synaptic Package Manager のバージョンを選択しました。
すでに libpulse-dev および libasound2 パッケージがインストールされています。
それで、考え?この問題を解決するにはどうすればよいですか? 不足しているパッケージはありますか? ソースからもう一度試す必要がありますか?
python - Windows 7 での CMUSphinx/PocketSphinx のセットアップ
私はこれを何時間も試みてきましたが、これを正しく行うことができないようです. Python でコマンド認識を使用するために Pocketsphinx をダウンロードしようとしています。
そこで私が最初にしたことは、Pocketsphinx が動作するために必要な SphinxBase をインストールすることでした。それでは、行きましょう。ファイル、tar.gz zip をダウンロードしました。Windowsにインストールするために、READMEドキュメントの指示に従いました。
これまでビジュアルを使用したことはありませんでしたが、それはかなり自明のように思えました。私が最初にしたことは、解凍して名前を変更することでした。次に、SLN プロジェクトをビジュアルで開き、6 つのプロジェクトすべてを選択し、[ファイル] > [ビルドの選択] を選択しました。6つのプロジェクトすべてが成功してビルドされます。これで完了です。本当にそれだけでしたか?私がしなければなりませんでした?
次はポケットスフィンクス。tar.gz を再度ダウンロードしましたが、基本的に同じプロセスを実行しました。
すべてのビルドがビルドに成功しました。それで... 終わりましたよね?この後、私は迷っています。ほとんどのチュートリアルはここで終了し、実際に他の言語で Pocketsphinx を使用することにはなりません。Pythonで使用できるようにする必要があります。
そこで、いろいろ調べてみたところ、ポケットフィンクス/パイソンの下に setup_win32.py ファイルが見つかりました。コマンドプロンプトでこれを実行しようとしましたが、複数のエラーが発生します。現在、Windows 64 ビットを実行していますが、これによりこの問題が発生する可能性はありますか? http://hastebin.com/japobecusi.tex
全体として、これを Python で動作させるには助けが必要です。私は現在、これらのことに非常に不慣れです。ありがとう
もう1つ、Ubuntu Linuxパーティションに切り替えて、自分自身をほぼ簡単にすることを検討しています。これを含むほとんどのプログラムは、Windows 32 のみを使用しているようです。64 は明らかに受け入れられません。では、Linux プラットフォームに移行して Python で作業することは有益でしょうか? それは簡単でしょうか?
事前に助けてくれてありがとう。
python - pocketphinx を使用して .wav ファイルをテキストに変換するにはどうすればよいですか?
私は自分の Linux マシンに pocketphinx を正しくインストールしましたが、今は pocketphinx を使用してオーディオ ファイル (.wave) をテキストに変換したいと考えています。それを行うための明確なコマンドと短いコマンドはありますか? このコマンドのようなもの:
また、Pythonを使用してそれを行うにはどうすればよいですか? 前もって感謝します。