ドメインの適切な言語モデルを取得し、それを CMU Sphinx などの音声認識ツールで使用するために、処理する必要があるドキュメント、文、または単語の数を知りたいです。
2 に答える
小規模なドメイン向けの適切な言語モデルを作成するには、通常、約 100 MB のテキストがあれば十分です。それらを汎用言語モデルと混合して、言語モデルをより一般化することができます。
汎用言語モデルを作成するために、開発者は非常に大きなコーパスを使用します。たとえば、何百万もの単語とテラバイトのデータを含む Google の 1 TB コーパスがあります。そのトライグラム部分は約 40Gb のバイグラム カウントですが、100 テラバイトのテキストである必要があります。
ニコライの答えに追加:
これは簡単な作業ではありません。言語モデルの生成は、時間とリソースを大量に消費するタスクです。
「優れた」言語モデルが必要な場合は、言語モデルをトレーニングするために大規模または非常に大規模なテキスト コーパスが必要になります (ウォール ストリート ジャーナルの数年分のテキストの大きさのオーダーで考えてください)。
「良い」とは: 言語モデルがトレーニング データから新しい、以前には見られなかった入力データに一般化できる場合
Sphinx と HTK 言語モデル ツールキットのドキュメントを参照してください。
次の 2 つのスレッドを確認してください。
より大きなコーパスに基づいて、より一般的な言語モデルを取得し、それを使用してより小さな言語モデルを補間することもできます..たとえば、バックオフ言語モデル...しかし、それは簡単な作業ではありません.
参照: http://en.wikipedia.org/wiki/Katz 's_back-off_model