CMU Sphinx の言語モデルを構築したいのですが、コーパスが 1000 語を超えているため、オンライン ツールを使用できません。(cmuclmtk のスクリプト?) を使用して言語モデルを構築するにはどうすればよいですか?
質問する
9359 次
2 に答える
6
チュートリアルをお読みください
于 2011-01-24T19:20:14.053 に答える
1
些細な仕事ではありません。言語モデルの生成は、時間とリソースを大量に消費するタスクです。
「優れた」言語モデルが必要な場合は、言語モデルをトレーニングするための大規模または非常に大規模なテキスト コーパスが必要になります (ウォール ストリート ジャーナルの数年分のテキストの大きさのオーダーで考えてください)。
「良い」とは: 言語モデルがトレーニング データから新しい、以前には見られなかった入力データに一般化できる場合
Sphinx と HTK 言語モデル ツールキットのドキュメントを参照してください。
http://cmusphinx.sourceforge.net/wiki/tutoriallm
次の 2 つのスレッドも確認してください。
より大きなコーパスに基づいて、より一般的な言語モデルを取得し、それを使用してより小さな言語モデルを補間することもできます..たとえば、バックオフ言語モデル...しかし、それは簡単な作業ではありません.
参照: Katz のバックオフ モデル
于 2011-10-05T02:01:13.157 に答える