nlp - Elman SRN の単語/音素コーパス (英語)

翻译自：https://stackoverflow.com/questions/7328997 2011-09-07T04:54:16.860

599 次

Elman Simple Recurrent Network を書いています。各単語が音素のシーケンスである単語のシーケンスを与えたいのですが、多くのトレーニングデータとテストデータが必要です。

だから、私が必要としているのは、ARPAbet や SAMPA のように書かれた英単語のコーパスと、それを構成する音素です。イギリス英語はいいかもしれませんが、自分が何を扱っているかを知っている限り、必須ではありません. 助言がありますか？

私は現在、話し言葉や書き言葉のデータから単語を構成する音素を導き出す何かをコード化する時間も意欲もないので、それを提案しないでください。

注: 私はCMU 発音辞書を知っていますが、ARPABet 記号セットのみに基づいていると主張しています。(無ければそのまま使えますが…)

編集: CMUPD 0.7a記号リスト- 母音には語彙強勢がある可能性があり、これを示す (ARPABET 標準記号の) バリエーションがあります。

1 に答える 1