3

Wget を使用すると、通常、index.html ファイルを 1 つだけ受け取ります。次の文字列を入力します。

wget -e robots=off -r http://www.korpora.org/kant/aa03

残念ながら、index.html ファイルのみが返されます。

ディレクトリ aa03 は、カントの本第 3 巻を暗示しており、その中には 560 個のファイル (ページ) 程度が存在するはずです。これらのページはオンラインで読むことができますが、ダウンロードされません。何か対策は?! THX

4

1 に答える 1

5

そのリンクをたどると、次のようになります。

http://korpora.zim.uni-duisburg-essen.de/kant/aa03/

wget は、ユーザーが指定していないドメインを指すリンクをたどりません。korpora.zim.uni-duisburg-essen.de は korpora.org と等しくないため、wget はインデックス ページのリンクをたどりません。

これを修正するには、--span-hosts または -H を使用します。-rH は非常に危険な組み合わせです。組み合わせると、誤ってインターネット全体をクロールする可能性があります。このコマンドは、意図したことを実行します。

wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html

(-np または --no-parent は、クロールを aa03/ に制限します。-D は、クロールをこれら 2 つのドメインのみに制限します。-l inf は、-D と -np によって制限され、無限に深くクロールします)。

于 2013-03-20T17:33:20.437 に答える