問題タブ [warc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
754 参照

python - PythonでWebページと関連リソースをWARCにダウンロードする

後で分析するために大量の Web ページをダウンロードすることに興味があります。やりたいことは2つあります。

  • ページと関連リソース (画像、記事に関連付けられた複数のページなど) を WARC ファイルにダウンロードします。
  • 現在のローカル ファイルを指すようにすべてのリンクを変更します。

これをPythonでやりたいです。

これを行うための適切なライブラリはありますか? Scrapy は、単一のページではなく Web サイトをスクレイピングするように設計されているようで、WARC ファイルを生成する方法がわかりません。もっとpythonネイティブなものがない場合、wgetを呼び出すことは実行可能な解決策です。Heritrix は完全に行き過ぎであり、Python ソリューションとしてはあまり優れていません。wpull は、十分に文書化された Python ライブラリがあれば理想的ですが、ほとんどがアプリケーションのようです。

他のアイデアはありますか?

0 投票する
0 に答える
155 参照

nutch - Apache Nutch を使用して一般的なクロール データを取得する

一般的なクロール Web サイトで自分のデータを見つけ、そこからそのデータをダウンロードします

そして今、Apache Nutch を使用してそのデータを取得する必要がありますが、方法がわかりません。

このファイルは warc ファイル形式です。