一般的なクロールの公開データ セットのサブセットを参照してダウンロードする必要があります。このページには、データがホストされている場所が記載されています。
s3://aws-publicdatasets/common-crawl/crawl-002/ でホストされている一般的なクロール データを参照してダウンロードするにはどうすればよいですか?
質問する
8431 次
4 に答える
4
Common Crawl クロールへの一般的なデータ アクセスについては、http: //blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/で説明されています。
いくつかの試験データを取得するための便利な方法は、アーカイブに新しいインデックスを使用することです: http://index.commoncrawl.org/CC-MAIN-2015-18
たとえば「www.cwi.nl」を照会すると、そのドメインのファイルを含むセグメントに関する JSON 構造が見つかります。
{
"urlkey": "nl,cwi)/", "timestamp": "20150505031358",
"status": "200", "url": "http://www.cwi.nl/",
"filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz",
"length": "5881", "mime": "text/html", "offset": "364108412",
"digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}
それに s3 情報をプレフィックスすると、サンプル データとして使用できるデータファイルをダウンロードできます: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18 /segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz
楽しむ!
于 2015-06-16T09:59:00.700 に答える