java - 独自の辞書で CMUSphinx 言語モデルを作成した後、次の手順は何ですか?

Question

ユーザーをリッスンするソフトウェア用にアラビア語用の独自の CMUSphinx 言語モデルを作成し、手動で手動で行った独自の辞書を使用してコマンドを適用し、「arpa」言語モデルタイプを「dmp」言語に変換しましたコマンドを使用してモデル化するsphinx_lm_convert -i ar.lm -o ar.lm.dmpため、これまでに持っているファイルは次のとおりです。

.txt (コマンドテキストファイル)
.wfreq (freq of words ファイル)
.idngram (ngram ファイル)
.dic (辞書ファイル)
.phone (音素ファイル)
.lm (arpa 言語モデルファイル)
.lm.dmp (DARPA Trigram ダンプ言語モデルファイル)

次に、各単語の発言を記録しました。各単語には独自の .wav ファイルがあり、それらはすべて、.dic、.txt、.lm が存在するフォルダーとは別の 1 つのフォルダーにあります。

私の質問は、私がここで読んでいた次のステップは何ですかhttp://cmusphinx.sourceforge.net/wiki/tutorial ?

言語モデルを構築したら、既存の音響モデルを適応させることが次のステップと書いてありますが、それは言語モデルをトレーニングすることではないでしょうか?

トレーニングの場合は、次のものを除く必要なすべてのファイルがあります。

.転写
.fileid

これらの 2 つのファイルの中身は何ですか?

感謝

score 1 · Accepted Answer

音響モデルのトレーニング手順は、音響モデルのトレーニングのチュートリアルで説明されています。

カスタム形式の既存の転写を必要な形式に変換する場合は、テキストエディターまたはスクリプトを使用して手動でファイル ID と転写ファイルを作成する必要があります。

Fileids にはファイル名をリストする必要があり、トランスクリプションファイルには、各ファイルのトランスクリプションを特別な形式でリストする必要があります。

たとえば、音響モデルトレーニングデータベースの場合は、an4 データベース内を確認できます。

java - 独自の辞書で CMUSphinx 言語モデルを作成した後、次の手順は何ですか?

1 に答える 1

Related

Reference