common-crawl - Web Data Commons から特定の Web サイトのデータを取得する手段は?

Question

Web Data Commons ダンプ内の興味深いデータを試しています。私のマシンで（並行して）grepするのに1日かかります。カバーされている Web サイトのインデックスと、それらのサイトから具体的に抽出する機能はありますか?

score 1 · Accepted Answer

特定のドメインからすべてのページを取得するには -- 1 つのオプションは、共通のクロール API サイトにクエリを実行することです。

特定のドメイン wikipedia.org からすべてのページを一覧表示するには:

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true

これは、一般的なクロールがこのドメインから持っているブロックのページ数を示しています (この例のようにワイルドカードを使用できることに注意してください)。

次に、各ページに移動し、共通クロールに各ファイルの json オブジェクトを送信するように依頼します。

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json

次に、json を解析し、フィールドから各 warc ファイルを取得できます。filename

このリンクが役に立ちます。

1 に答える 1