2

ドメインの適切な言語モデルを取得し、それを CMU Sphinx などの音声認識ツールで使用するために、処理する必要があるドキュメント、文、または単語の数を知りたいです。

4

2 に答える 2

2

小規模なドメイン向けの適切な言語モデルを作成するには、通常、約 100 MB のテキストがあれば十分です。それらを汎用言語モデルと混合して、言語モデルをより一般化することができます。

汎用言語モデルを作成するために、開発者は非常に大きなコーパスを使用します。たとえば、何百万もの単語とテラバイトのデータを含む Google の 1 TB コーパスがあります。そのトライグラム部分は約 40Gb のバイグラム カウントですが、100 テラバイトのテキストである必要があります。

于 2011-09-14T10:00:42.130 に答える
0

ニコライの答えに追加:

これは簡単な作業ではありません。言語モデルの生成は、時間とリソースを大量に消費するタスクです。

「優れた」言語モデルが必要な場合は、言語モデルをトレーニングするために大規模または非常に大規模なテキスト コーパスが必要になります (ウォール ストリート ジャーナルの数年分のテキストの大きさのオーダーで考えてください)。

「良い」とは: 言語モデルがトレーニング データから新しい、以前には見られなかった入力データに一般化できる場合

Sphinx と HTK 言語モデル ツールキットのドキュメントを参照してください。

次の 2 つのスレッドを確認してください。

互換性のある言語モデルを開くビルド

ルビテキスト分析

より大きなコーパスに基づいて、より一般的な言語モデルを取得し、それを使用してより小さな言語モデルを補間することもできます..たとえば、バックオフ言語モデル...しかし、それは簡単な作業ではありません.

参照: http://en.wikipedia.org/wiki/Katz 's_back-off_model

于 2011-10-05T02:04:58.013 に答える