wget - wget は、他の約 500 個の html ファイルではなく、1 つの index.html ファイルのみをダウンロードします

Question

Wget を使用すると、通常、index.html ファイルを 1 つだけ受け取ります。次の文字列を入力します。

残念ながら、index.html ファイルのみが返されます。

ディレクトリ aa03 は、カントの本第 3 巻を暗示しており、その中には 560 個のファイル (ページ) 程度が存在するはずです。これらのページはオンラインで読むことができますが、ダウンロードされません。何か対策は?! THX

score 5 · Accepted Answer

そのリンクをたどると、次のようになります。

wget は、ユーザーが指定していないドメインを指すリンクをたどりません。korpora.zim.uni-duisburg-essen.de は korpora.org と等しくないため、wget はインデックスページのリンクをたどりません。

これを修正するには、--span-hosts または -H を使用します。-rH は非常に危険な組み合わせです。組み合わせると、誤ってインターネット全体をクロールする可能性があります。このコマンドは、意図したことを実行します。

wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html

(-np または --no-parent は、クロールを aa03/ に制限します。-D は、クロールをこれら 2 つのドメインのみに制限します。-l inf は、-D と -np によって制限され、無限に深くクロールします)。

1 に答える 1