machine-learning - 自然言語処理用のトランスクリプトデータセット

Question

Web で検索したところ、CNN や NPR などのメディアが、それらのトランスクリプトにアクセスするためのリンクを提供していることがわかりました。それらを取得するには、あまり便利ではないクローラーのようなものを書く必要があります。その理由は、テレビ番組、インタビュー、ラジオ、映画のトランスクリプトを、自然言語処理プロジェクトのトレーニングデータとして使用しようとしているからです。それで、自分でクローラーを書かなくても一度にすべてをダウンロードできるように、ウェブ上で自由に利用できるコレクションまたはデータベースがあるかどうか疑問に思っていますか?

score 2 · Accepted Answer

British National Corpusをお勧めします。アメリカンナショナルコーパスについても触れておきますが、そこにある記録は電話や対面での会話のみで、ニュースやテレビ番組などはありません。

CNN と NPR についても言及されました。LDC コーパスとして 1996 年からのトランスクリプトがここにあります。

machine-learning - 自然言語処理用のトランスクリプト データセット

1 に答える 1

Related

Reference

machine-learning - 自然言語処理用のトランスクリプトデータセット