Web で検索したところ、CNN や NPR などのメディアが、それらのトランスクリプトにアクセスするためのリンクを提供していることがわかりました。それらを取得するには、あまり便利ではないクローラーのようなものを書く必要があります。その理由は、テレビ番組、インタビュー、ラジオ、映画のトランスクリプトを、自然言語処理プロジェクトのトレーニング データとして使用しようとしているからです。それで、自分でクローラーを書かなくても一度にすべてをダウンロードできるように、ウェブ上で自由に利用できるコレクションまたはデータベースがあるかどうか疑問に思っていますか?
1694 次
1 に答える
2
British National Corpusをお勧めします。アメリカン ナショナル コーパスについても触れておきますが、そこにある記録は電話や対面での会話のみで、ニュースやテレビ番組などはありません。
CNN と NPR についても言及されました。LDC コーパスとして 1996 年からのトランスクリプトがここにあります。
于 2013-08-28T20:31:42.690 に答える