Web Data Commons ダンプ内の興味深いデータを試しています。私のマシンで(並行して)grepするのに1日かかります。カバーされている Web サイトのインデックスと、それらのサイトから具体的に抽出する機能はありますか?
1 に答える
1
特定のドメインからすべてのページを取得するには -- 1 つのオプションは、共通のクロール API サイトにクエリを実行することです。
特定のドメイン wikipedia.org からすべてのページを一覧表示するには:
http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true
これは、一般的なクロールがこのドメインから持っているブロックのページ数を示しています (この例のようにワイルドカードを使用できることに注意してください)。
次に、各ページに移動し、共通クロールに各ファイルの json オブジェクトを送信するように依頼します。
http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json
次に、json を解析し、フィールドから各 warc ファイルを取得できます。filename
このリンクが役に立ちます。
于 2015-08-11T21:53:17.507 に答える