-1

Web Data Commons ダンプ内の興味深いデータを試しています。私のマシンで(並行して)grepするのに1日かかります。カバーされている Web サイトのインデックスと、それらのサイトから具体的に抽出する機能はありますか?

4

1 に答える 1

1

特定のドメインからすべてのページを取得するには -- 1 つのオプションは、共通のクロール API サイトにクエリを実行することです。

http://index.commoncrawl.org

特定のドメイン wikipedia.org からすべてのページを一覧表示するには:

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=*.wikipedia.org*/&showNumPages=true

これは、一般的なクロールがこのドメインから持っているブロックのページ数を示しています (この例のようにワイルドカードを使用できることに注意してください)。

次に、各ページに移動し、共通クロールに各ファイルの json オブジェクトを送信するように依頼します。

http://index.commoncrawl.org/CC-MAIN-2015-11-index?url=en.wikipedia.org/*&page=0&output=json

次に、json を解析し、フィールドから各 warc ファイルを取得できます。filename

このリンクが役に立ちます。

于 2015-08-11T21:53:17.507 に答える