voice-recognition - Sphinx の言語モデルを作成するには、どのくらいのコーパスが必要ですか?

Question

ドメインの適切な言語モデルを取得し、それを CMU Sphinx などの音声認識ツールで使用するために、処理する必要があるドキュメント、文、または単語の数を知りたいです。

score 2 · Accepted Answer

小規模なドメイン向けの適切な言語モデルを作成するには、通常、約 100 MB のテキストがあれば十分です。それらを汎用言語モデルと混合して、言語モデルをより一般化することができます。

汎用言語モデルを作成するために、開発者は非常に大きなコーパスを使用します。たとえば、何百万もの単語とテラバイトのデータを含む Google の 1 TB コーパスがあります。そのトライグラム部分は約 40Gb のバイグラムカウントですが、100 テラバイトのテキストである必要があります。

score 0 · Accepted Answer

ニコライの答えに追加：

これは簡単な作業ではありません。言語モデルの生成は、時間とリソースを大量に消費するタスクです。

「優れた」言語モデルが必要な場合は、言語モデルをトレーニングするために大規模または非常に大規模なテキストコーパスが必要になります (ウォールストリートジャーナルの数年分のテキストの大きさのオーダーで考えてください)。

「良い」とは: 言語モデルがトレーニングデータから新しい、以前には見られなかった入力データに一般化できる場合

Sphinx と HTK 言語モデルツールキットのドキュメントを参照してください。

次の 2 つのスレッドを確認してください。

より大きなコーパスに基づいて、より一般的な言語モデルを取得し、それを使用してより小さな言語モデルを補間することもできます..たとえば、バックオフ言語モデル...しかし、それは簡単な作業ではありません.

2 に答える 2