小さなコーパスで使用する日常の英語のテキストのアーカイブまたはコレクションを見つける場所について誰か提案がありますか? 私はグーテンベルグ プロジェクトの書籍を作業プロトタイプに使用しており、より現代的な言語を取り入れたいと考えています。ここでの最近の回答は、ユーズネットの映画レビューの素晴らしいアーカイブを間接的に示しています、私には思いつかなかった、そしてとても良いです。この特定のプログラムの場合、技術的なユースネット アーカイブやプログラミング メーリング リストでは結果が傾いて分析が難しくなりますが、あらゆる種類の一般的なブログ テキスト、チャットのトランスクリプト、または他の人に役立つ可能性のあるものはすべて非常に役立ちます。また、あまりマークアップされていない部分的またはダウンロード可能な研究コーパス、またはウィキペディアの記事の適切なサブセットを見つけるためのヒューリスティック、またはその他のアイデアは非常に高く評価されています。
(ちなみに、私はダウンロードなしの善良な市民であり、そのような素材をホストするサーバーに要求しない故意に遅いスクリプトを使用しています.何か巨大なものを私に指摘することでモラルハザードを感じた場合に備えて.)
更新: ユーザー S0rin は、ウィキペディアがクロールを要求せず、代わりにこのエクスポート ツールを提供していると指摘しています。Project Gutenberg には、ここで指定されたポリシーがあります。つまり、クロールしないようにしてください。
UPDATE 2 ウィクペディアのダンプは、それらを指摘した回答者のおかげで、進むべき道です。ここから英語版を使用することになりました: http://download.wikimedia.org/enwiki/20090306/、および約半分のサイズのスペイン語のダンプ。それらはクリーンアップするのに多少の作業が必要ですが、それだけの価値があり、リンクには多くの有用なデータが含まれています.