speech-recognition - CMU Sphinx 用の大語彙言語モデルを構築するにはどうすればよいですか?

Question

CMU Sphinx の言語モデルを構築したいのですが、コーパスが 1000 語を超えているため、オンラインツールを使用できません。(cmuclmtk のスクリプト?) を使用して言語モデルを構築するにはどうすればよいですか?

score 6 · Accepted Answer

6

チュートリアルをお読みください

于 2011-01-24T19:20:14.053 に答える

score 1 · Accepted Answer

些細な仕事ではありません。言語モデルの生成は、時間とリソースを大量に消費するタスクです。

「優れた」言語モデルが必要な場合は、言語モデルをトレーニングするための大規模または非常に大規模なテキストコーパスが必要になります (ウォールストリートジャーナルの数年分のテキストの大きさのオーダーで考えてください)。

「良い」とは: 言語モデルがトレーニングデータから新しい、以前には見られなかった入力データに一般化できる場合

Sphinx と HTK 言語モデルツールキットのドキュメントを参照してください。

次の 2 つのスレッドも確認してください。

より大きなコーパスに基づいて、より一般的な言語モデルを取得し、それを使用してより小さな言語モデルを補間することもできます..たとえば、バックオフ言語モデル...しかし、それは簡単な作業ではありません.

2 に答える 2