問題タブ [htk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
fatal-error - HDMan コマンドの実行中に致命的なエラーが発生しました
HDMan
htk ツールキットのコマンドを使用しようとしていますが、「致命的な」エラーが発生します。私のコンソールは以下のようになります:
HDMan
ファイルが見つかりませんnames
。このファイルの作成方法と、このファイルの内容がわかりません。
誰でも私を助けてもらえますか?
probability - HTKで後部プローブを直接読み取る方法は?
あいさつ仲間、
私は必死になってhtk3.4で変更する必要のあるファイルを見つけようとしています。これにより、音素/発話のモノフォンの後方プローブのシーケンスを直接読み取り、音響モデルと言語モデルの両方を指定してデコーダーに直接転送できます。
より詳細には、ステップ9までのHTKチュートリアルに従っており、モノフォンで作業したいだけです。私の(独自の、特定の)特徴ベクトルは、各音素の3つの状態の確率を持つベクトルのシーケンスです。
(p(aa_begin)、p(aa_mid)、p(aa_end)、...、p(z_begin)、p(z_mid)、p(z_end))
発話の各フレームについて、エントリは、上記のように、すでに後方の確率です。
(特定の)ファイル(独自のバイナリ形式)からそれらを読み取るためにどのファイルを変更する必要があるか、およびそれらをデコーダーに直接転送する方法はありますか?HViteとHEResultを使用して結果を取得できるようにするのに最適ですか?
助けてくれてありがとう、G。
voice-recognition - Android オフライン音声認識
Android アプリケーションを制御するために使用される特定のコマンドを認識するために、すでに HTK (Hidden Markov Model Tool Kit) を使用していますが、この場合、音声データをサーバーに渡す必要があり、時間がかかる可能性があります。
この遅延を防ぐために、ポケットフィンクスを使用して Android アプリケーションでローカルに音声データを認識し、その音声をサーバーに渡す必要がないようにすることを考えています。
これが良い考えだとすれば、ポケットフィンクスをゼロから学ぶのは簡単ですか? また、両方の技術 (サーバーベースとローカルの音声認識) の長所と短所は何ですか? また、どちらが優れていますか?
speech-recognition - アプリケーションのようなディクテーションに htk を使用できますか?
アプリケーションのようなディクテーション用の音声認識システムを構築したいと考えています。私は htk の本や他のチュートリアルを読みましたが、すべてのチュートリアルはコマンド アンド コントロールのようなアプリケーションに関するものです。gram
これらのアプリケーションでは、一連のコマンドと単語が制限されており、タスク文法 (ファイル)を使用して手動で指定されます。
私のアプリケーションでは、2 人の会話を含む巨大なオーディオ ファイルを処理するため、そのような文法を指定することはできません。
htk を使用してそのようなアプリケーションを構築できるかどうかを知りたいです。
ありがとう...
睡眠不足の夜を何度も過ごした後の更新
Sphinx を使用して 86% の精度を得ました。言語モデルに問題がありました (何が問題なのか正確にはわかりませんが、それを見つけようとしています) ためlmtool
、Web ベースの言語モデル生成サービスである Sphinx を使用して新しい言語モデルを作成しました。このリンクを使用して取得できます
また、音響モデルをHUBからWSJに変更しました。
speech-recognition - HTK: HVite が見つかりません
HTK を使用して音声認識システムを構築したいので、http ://www.keithv.com/software/htk/us/ (トレーニング データ: WSJ SI-84) から関連付けられた状態の事前トレーニング済み音響モデルをダウンロードしました。
ただし、辞書で HVite を実行しようとすると、次のエラーが発生します。
、macros
、hmmdefs
およびtiedlist
は、上記のリンクからダウンロードしたファイルです。test.scp
私の機能ファイルへのパスが含まれています。
私のdict
ファイルは次のようになります。
wdnet
を使用して生成されますHParse grammer wdnet
。 の内容grammar
は次のとおりです。
tiedlist
を含む行がありませんが、z-ia+r
なぜこれがエラーなのですか?どうすれば修正できますか?
speech-recognition - HTK のエバリュエーターを読む
私は読書エバリュエーターを開発しようとしています(CMUSphnix Speech Recognizerに基づく読書チューターのサブセット - http://www.cs.cmu.edu/~listen/ )。私のエバリュエーターは、主に英語の韻律 (または流暢さ) をテストするために使用されますが、インドのアクセントはまだ利用できません。
具体的には、たとえば 500 ~ 1000 語の定型文で構成されたリーディング テストを読者に提示します。音声データは記録され、一時停止、休憩、ピッチ、強さなどについて分析され、最終的に評価に基づいてスコアがリーダーに割り当てられます。
今。これがキャッチです。新しい言語の場合、HTK では (1)文法、(2)発音モデル、(3)音響モデル (トレーニング) を事前に指定する必要があります。私の場合、ストーリーは固定されており、英語の膨大な語彙に比べて非常に小さいため、すべてを行う必要はないと思います.
私はこの分野では非常に初心者なので、(a) 簡単なデモ (スケルトン) のために自分で最初にこれをテストする最も簡単で労力の少ない方法を教えてもらえますか? (b) 上記の 3 つのモデルのうち、何を変更する必要があり、2 ~ 3 階建てのような信頼性の高いテスト可能なプロトタイプを開発するにはどうすればよいですか? (c) このプロジェクトを開始するためのその他の助けや、その他の提案/批判は大歓迎です。
PS 繰り返しますが、英語のみを使用しますが、インドのシナリオでテストすることに注意してください。単語の総数は約 100 ~ 200 程度と少ないため、通常のツールよりもはるかに少ない労力 (トレーニング、文法モデルなど) で認識精度が向上する可能性があると感じています。
どうもありがとう。
linux - Ubuntu に HTK をインストールすると、すべてが機能しなくなります
HTK のコンパイルとインストールを何度か試みましたが、ステップ 5 を通過できません! 「make install」を実行すると (「make all」が正しく実行された後)、次の出力が得られます。
どうすればいいのかわからないだけで、ネットには何もありません。HTK をインストールする方法を知っている人はいますか?
signal-processing - HTK HSGen [+8250] エラー?
数字の認識に HTK ツールボックスを使用したいと考えています。だから私はそれをダウンロードして、それを使用する方法についての指示を読みました! しかし、使用したいときに、次のHSGen
エラーが発生します。
したがって、私が行った手順は次のとおりです。
私のファイルの内容は、gramという名前のファイルに保存されているとおりです。
HParse
コマンドを使用してこの文法のネットワークを作成すると、その内容は ( wdnetという名前のファイルに保存されます) :
I=0 W=!NULL
I=1 W=!NULL
I=10 W=SEVEN
I=11 W=EIGHT
I=12 W=NINE
I=13 W=ZERO
I=14 W=SENT-END
I=2 W=SENT-START
I=3 W=ONE
I=4 W=!NULL
I=5 W=TWO
I=6 W=THREE
I=7 W=FOUR
I=8 W=FIVE
I=9 W=SIX
J=0 S=14 E=1
J=1 S=0 E=2
J=10 S=11 E=4
J=11 S=12 E=4
J=12 S=13 E=4
J=13 S=2 E=5
J=14 S=2 E=6
J=15 S=2 E=7
J=16 S=2 E=8
J=17 S=2 E=9
J=18 S=2 E=10
J=19 S=2 E=11
J=2 S=2 E=3
J=20 S=2 E=12
J=21 S=2 E=13
J=22 S=4 E=14
J=3 S=3 E=4
J=4 S=5 E=4
J=5 S=6 E=4
J=6 S=7 E=4
J=7 S=8 E=4
J=8 S=9 E=4
J=9 S=10 E=4
N=15 L=23
VERSION=1.0
wlist2という名前の単語リストファイルがあり、その内容は次のとおりです。
次のコマンドを使用しHDMan
て辞書ファイルを作成します。
which mbeep2は、 wlist2の各単語の発音を含む私の辞書です。出力ファイルはdict2という名前のファイルに作成されます。
このコマンドでHSGenを使用する場合:
このエラーが発生しました:
エラー番号を検索しましたが、関連する解決策が見つかりません! 誰でも助けることができますか?
ありがとう。
htk - HMM Toolkit (HTK) を使用したオンライン単語認識
HMM ベースの認識エンジンを作成するために使用する統計パラメータを計算しているオンラインの手書きサンプルの xy 座標があります。
HMM ツールキットや HTK はもともと音声認識用に作成されているため、HTK を使用してオンラインの単語認識を実行する方法を理解できません。
私のパラメーターをこのツールキットへの入力として与える方法と、それが与える出力を理解するのを手伝ってくれませんか?????