web-crawler - クロールされたサイト (ARC ファイル) からのグラフィックの抽出

Question

Heritrix クロールによって生成された ARC ファイルを使用しています。これらのページを Wayback Machine で表示すると、ほとんどのグラフィックがローカルマシンから読み込まれているように見えるので、これらのグラフィックは ARC ファイル内に保存されていると想定しています。あれは正しいですか？もしそうなら、画像を抽出する最良の方法は何ですか?

score 0 · Accepted Answer

arc_extractor と呼ばれる perl スクリプトという 1 つの解決策を見つけました: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

ARC ファイルに含まれるすべてのファイルを抽出し、受信元のサイトに応じてフォルダーごとに分けます。はい、画像ファイルが含まれています。

スクリプトはあまりエレガントではありません...だから、誰か他の提案があれば、私はそれらについて学ぶことに興味があります.

web-crawler - クロールされたサイト (ARC ファイル) からのグラフィックの抽出

1 に答える 1

Related

Reference