speech-recognition - 単語のリストが多い場合、音声認識用の文法ファイルを効率的に作成するにはどうすればよいですか？

Question

手動でできるので、たった50語で音声認識用の文法ファイルを簡単に書くことができます。10,000語または100,000語の場合、最も簡単で効率的な方法は何ですか。

例：
「RCコーラ」と「ペプシコーラ」があるとします。次の2つのルールで構成される文法ファイルがあります
。DRINK：（COLANAME？[coke cola soda]）
COLANAME：[rc pepsi]
"RC"、 "RC Coke"、 "RC Cola"、 "RC Soda"、"を認識します。「ペプシ」、「ペプシコーラ」、「ペプシコーラ」、「ペプシソーダ」。

編集：私は音声認識のための文法について話している。音声認識システムには、何を認識するか（gsl、grxml）がわかるように、付随する文法ファイルが必要です。実は、言葉だけでなく、名前のようにカテゴリーに分類できないものも考えていました。

score 5 · Accepted Answer

わかりました。あなたは文法を意味します。指定する文法形式は、文脈自由文法のいとこです。文脈自由文法の自動学習に関する研究分野が存在します。確率的文脈自由文法は、この分野の中心です。PCFG の学習に関する Roni rosenfeldのノート (PostScript)、ベイジアンバージョン (圧縮された Postscript)、および教師なし PCFG 学習 (PDF)を参照してください。これは活発な研究分野であり、これらの論文が書かれてから変化しました。Eugene Charniakは、この分野における多作な研究者です。

score 1 · Accepted Answer

50〜10万語の辞書の場合、文脈自由文法を作成するよりも、ディクテーション文法を作成する方がほぼ確実に優れています。Microsoftは、DictationResourceKitを無料で利用できます。使ったことがないので、使い勝手はコメントできません。

score 0 · Accepted Answer

品詞のタグ付けを意味していると思います。最速の方法は、自動タグ付け機能を使用して手動で結果を検証 (および修正) することです。タガーのヒット率が 60 ～ 70% と低くても、作業量は大幅に削減されます。

score 0 · Accepted Answer

私の問題を解決する答えはありませんが、ユヴァルの答えは、これがまだ開発中の主題であり、十分に成熟した主題ではないことを明確に示唆しています. 私は、おそらく現在存在する簡単な文法修正がないことを理解しています (少なくとも研究所の外では)。優れた文法を実行するための唯一の解決策は、おそらく、ユーザー入力の継続的な学習と、文法ファイルのアジャイルリファクタリングです。

score -1 · Accepted Answer

私の頭のてっぺんから完全にランダム/大げさなアイデア：

-単語をカテゴリ（名詞、動詞など）に分類してから、単語のクラスに基づいて、ステートメント/文全体に対して潜在的に正しい形式を形成することができます。次に、単語とそれらが使用された順序に基づいて、以前に定義されたモデルに新しいテストデータを適合させることを試みることができます。

-ある種のトレーニングデータや文献に基づいて単語の適切な使用法を学習するために、ある種の機械学習アルゴリズムを使用することにも興味があります。アルゴリズムをトレーニングしたら、以前の結果に基づいて新しい受信データを分類してみることができます。

speech-recognition - 単語のリストが多い場合、音声認識用の文法ファイルを効率的に作成するにはどうすればよいですか？

5 に答える 5

Related

Reference