問題タブ [language-model]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cmusphinx - CMU Sphinx4 - カスタム言語モデル
非常に具体的な要件があります。私は、ユーザーが HN56C12345 (任意の英数字シーケンス) の形式の従業員番号をアプリに話せるようにするアプリケーションに取り組んでいます。http://cmusphinx.sourceforge.net/wiki/tutoriallmのリンクを確認しましたが、それが私のユースケースで機能するかどうかはわかりません。
だから私の質問は3つです:
- 私の場合、Sphinx4 は実際に emp 番号のような高精度の英数字シーケンスを認識できますか?
- はいの場合、だれかがSphinx4でカスタム言語サポートをゼロから構築した具体的な例/リファレンスページを教えてください. これに関する詳細なステップバイステップのドキュメントはまだ見つかりません。英数字シーケンスに基づく辞書または言語モデルに取り組んだ人はいますか?
- このシナリオの音響モデルを構築するにはどうすればよいですか?
python-2.7 - (ユニグラム) パープレキシティを推定する NLTK パッケージ
私が持っているデータの困惑を計算しようとしています。私が使用しているコードは次のとおりです。
しかし、私はエラーを受け取っています、
私はすでに持っているデータに対して潜在的ディリクレ配分を実行し、ユニグラムとそれぞれの確率を生成しました (データの合計確率の合計が 1 であるため、それらは正規化されています)。
私のユニグラムとその確率は次のようになります。
これは、私が持っているユニグラム ファイルのほんの一部です。約 1000 行にわたって同じフォーマットが使用されます。合計確率 (2 列目) は 1 になります。
私は新進のプログラマーです。この ngram.py は nltk パッケージに属しており、これを修正する方法について混乱しています。ここにあるサンプル コードは nltk のドキュメントからのもので、今何をすべきかわかりません。私にできることを手伝ってください。前もって感謝します!
java - 独自の辞書で CMUSphinx 言語モデルを作成した後、次の手順は何ですか?
ユーザーをリッスンするソフトウェア用にアラビア語用の独自の CMUSphinx 言語モデルを作成し、手動で手動で行った独自の辞書を使用してコマンドを適用し、「arpa」言語モデル タイプを「dmp」言語に変換しましたコマンドを使用してモデル化するsphinx_lm_convert -i ar.lm -o ar.lm.dmp
ため、これまでに持っているファイルは次のとおりです。
- .txt (コマンド テキスト ファイル)
- .wfreq (freq of words ファイル)
- .idngram (ngram ファイル)
- .dic (辞書ファイル)
- .phone (音素ファイル)
- .lm (arpa 言語モデル ファイル)
- .lm.dmp (DARPA Trigram ダンプ言語モデル ファイル)
次に、各単語の発言を記録しました。各単語には独自の .wav ファイルがあり、それらはすべて、.dic、.txt、.lm が存在するフォルダーとは別の 1 つのフォルダーにあります。
私の質問は、私がここで読んでいた次のステップは何ですかhttp://cmusphinx.sourceforge.net/wiki/tutorial ?
言語モデルを構築したら、既存の音響モデルを適応させることが次のステップと書いてありますが、それは言語モデルをトレーニングすることではないでしょうか?
トレーニングの場合は、次のものを除く必要なすべてのファイルがあります。
- .転写
- .fileid
これらの 2 つのファイルの中身は何ですか?
感謝
python - theano を使用した RNNLM
theano ユーザーリストで同じ質問をしましたが、返事がありませんでした。
この素敵な投稿に基づいて、 http://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdfの RNNLM を再実装しようとしています。PTB トレーニング データ ( http://rnnlm.org/からダウンロード) の最初の 100 文をトレーニング データとするおもちゃのテスト ケースを試しました。同じデータを評価にも使用しました。
ベースライン:
http://rnnlm.org/の rnnlm-0.4b を使用して、25 回の反復で LM をトレーニングしました。テスト ログ確率: -4107.323481 PPL ネット: 85.496622
ベースラインを生成するコマンド ラインは次のとおりです。
私の実装を使用すると、25 回の反復の後、PPL に大きな違いがあります。
エポック=24: ログ確率=-5374.255371 ppl=337.187731
私はまだ Theano を学んでいます。
ありがとう
私の実装はここにあります:
ocr - tesseractでヒンディー語のキューブ言語モデルパラメータを開くことができません
Tesseract がキューブ言語モデルを読み取ることができません。
tesseract 1.png output.txt -l hin
上記コマンド実行後、以下のエラーが発生します。
どこでhin.cube.lmファイルを取得し、そのファイルをどのように扱うのですか?