Heritrix クロールによって生成された ARC ファイルを使用しています。これらのページを Wayback Machine で表示すると、ほとんどのグラフィックがローカル マシンから読み込まれているように見えるので、これらのグラフィックは ARC ファイル内に保存されていると想定しています。あれは正しいですか?もしそうなら、画像を抽出する最良の方法は何ですか?
1 に答える
0
arc_extractor と呼ばれる perl スクリプトという 1 つの解決策を見つけました: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt
ARC ファイルに含まれるすべてのファイルを抽出し、受信元のサイトに応じてフォルダーごとに分けます。はい、画像ファイルが含まれています。
スクリプトはあまりエレガントではありません...だから、誰か他の提案があれば、私はそれらについて学ぶことに興味があります.
于 2010-06-21T15:41:42.270 に答える