8

CMU Sphinx の言語モデルを構築したいのですが、コーパスが 1000 語を超えているため、オンライン ツールを使用できません。(cmuclmtk のスクリプト?) を使用して言語モデルを構築するにはどうすればよいですか?

4

2 に答える 2

6

チュートリアルをお読みください

http://cmusphinx.sourceforge.net/wiki/tutoriallm

于 2011-01-24T19:20:14.053 に答える
1

些細な仕事ではありません。言語モデルの生成は、時間とリソースを大量に消費するタスクです。

「優れた」言語モデルが必要な場合は、言語モデルをトレーニングするための大規模または非常に大規模なテキスト コーパスが必要になります (ウォール ストリート ジャーナルの数年分のテキストの大きさのオーダーで考えてください)。

「良い」とは: 言語モデルがトレーニング データから新しい、以前には見られなかった入力データに一般化できる場合

Sphinx と HTK 言語モデル ツールキットのドキュメントを参照してください。

http://cmusphinx.sourceforge.net/wiki/tutoriallm

次の 2 つのスレッドも確認してください。

互換性のある言語モデルを開くビルド

ルビテキスト分析

より大きなコーパスに基づいて、より一般的な言語モデルを取得し、それを使用してより小さな言語モデルを補間することもできます..たとえば、バックオフ言語モデル...しかし、それは簡単な作業ではありません.

参照: Katz のバックオフ モデル

于 2011-10-05T02:01:13.157 に答える