問題タブ [warc]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

54 問題

0 投票する

1 に答える

754 参照

python - PythonでWebページと関連リソースをWARCにダウンロードする

後で分析するために大量の Web ページをダウンロードすることに興味があります。やりたいことは2つあります。

ページと関連リソース (画像、記事に関連付けられた複数のページなど) を WARC ファイルにダウンロードします。
現在のローカルファイルを指すようにすべてのリンクを変更します。

これをPythonでやりたいです。

これを行うための適切なライブラリはありますか? Scrapy は、単一のページではなく Web サイトをスクレイピングするように設計されているようで、WARC ファイルを生成する方法がわかりません。もっとpythonネイティブなものがない場合、wgetを呼び出すことは実行可能な解決策です。Heritrix は完全に行き過ぎであり、Python ソリューションとしてはあまり優れていません。wpull は、十分に文書化された Python ライブラリがあれば理想的ですが、ほとんどがアプリケーションのようです。

他のアイデアはありますか？

2016-12-17T03:37:10.043

0 投票する

0 に答える

155 参照

nutch - Apache Nutch を使用して一般的なクロールデータを取得する

一般的なクロール Web サイトで自分のデータを見つけ、そこからそのデータをダウンロードします

そして今、Apache Nutch を使用してそのデータを取得する必要がありますが、方法がわかりません。

このファイルは warc ファイル形式です。

nutch warc common-crawl

2017-01-17T07:44:33.977

1 2 3 4 5 6 7 8 9 10

問題タブ [warc]

python - PythonでWebページと関連リソースをWARCにダウンロードする

nutch - Apache Nutch を使用して一般的なクロール データを取得する

Reference

nutch - Apache Nutch を使用して一般的なクロールデータを取得する