Elman Simple Recurrent Network を書いています。各単語が音素のシーケンスである単語のシーケンスを与えたいのですが、多くのトレーニング データとテスト データが必要です。
だから、私が必要としているのは、ARPAbet や SAMPA のように書かれた英単語のコーパスと、それを構成する音素です。イギリス英語はいいかもしれませんが、自分が何を扱っているかを知っている限り、必須ではありません. 助言がありますか?
私は現在、話し言葉や書き言葉のデータから単語を構成する音素を導き出す何かをコード化する時間も意欲もないので、それを提案しないでください。
注: 私はCMU 発音辞書を知っていますが、ARPABet 記号セットのみに基づいていると主張しています。(無ければそのまま使えますが…)
編集: CMUPD 0.7a記号リスト- 母音には語彙強勢がある可能性があり、これを示す (ARPABET 標準記号の) バリエーションがあります。