6

一般的なクロールの公開データ セットのサブセットを参照してダウンロードする必要があります。このページには、データがホストされている場所が記載されています。
s3://aws-publicdatasets/common-crawl/crawl-002/ でホストされている一般的なクロール データを参照してダウンロードするにはどうすればよいですか?

4

4 に答える 4

4

Common Crawl クロールへの一般的なデータ アクセスについては、http: //blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/で説明されています。

いくつかの試験データを取得するための便利な方法は、アーカイブに新しいインデックスを使用することです: http://index.commoncrawl.org/CC-MAIN-2015-18

たとえば「www.cwi.nl」を照会すると、そのドメインのファイルを含むセグメントに関する JSON 構造が見つかります。

{
 "urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
 "status": "200", "url": "http://www.cwi.nl/", 
 "filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
 "length": "5881", "mime": "text/html", "offset": "364108412", 
 "digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}

それに s3 情報をプレフィックスすると、サンプル データとして使用できるデータファイルをダウンロードできます: https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18 /segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

楽しむ!

于 2015-06-16T09:59:00.700 に答える