0

Heritrix クロールによって生成された ARC ファイルを使用しています。これらのページを Wayback Machine で表示すると、ほとんどのグラフィックがローカル マシンから読み込まれているように見えるので、これらのグラフィックは ARC ファイル内に保存されていると想定しています。あれは正しいですか?もしそうなら、画像を抽出する最良の方法は何ですか?

4

1 に答える 1

0

arc_extractor と呼ばれる perl スクリプトという 1 つの解決策を見つけました: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

ARC ファイルに含まれるすべてのファイルを抽出し、受信元のサイトに応じてフォルダーごとに分けます。はい、画像ファイルが含まれています。

スクリプトはあまりエレガントではありません...だから、誰か他の提案があれば、私はそれらについて学ぶことに興味があります.

于 2010-06-21T15:41:42.270 に答える