html - Httrackが同じファイルを再度ダウンロードしないようにするにはどうすればよいですか？

Question

このWebサイトをダウンロードするためにhttrackを使用しています：http： //4minutearticles.com/

ただし、問題は、作成者が自分のWebサイトのすべてのページのメインページに戻るリンクを持っていることです。

例： http： //4minutearticles.com/ext/

親ディレクトリリンクメインページにリダイレクトすると、ソフトウェアのダウンロードが再開されます

このループが発生しないようにするにはどうすればよいですか？

score 3 · Accepted Answer

以下のリンクにある質問への回答をお読みください。

「ファイルが重複しています。どうなっているのですか？」

リンク：http ：//www.httrack.com/html/faq.html#Q1b11

次のリンクの「Filters：Advanced」もご覧ください。

http://www.httrack.com/html/filters.html

それはあなたの問題に役立つかもしれません。

score 1 · Accepted Answer

フィルタを使用して、HTTRACKが同じファイルまたはフォルダをダウンロードしないようにすることができます。これを行うには、[設定とミラーオプション]ラベルの前にある[オプションの設定]ボタンをクリックし、[スキャンルール]タブを開いてから[リンクを除外]ボタンを開き、必要に応じてルールを設定します。

score 0 · Accepted Answer

これは通常、上位のインデックス（index.htmlおよびindex-2.html）に当てはまります。

これは一般的な問題ですが、簡単に回避することはできません。

たとえば、http：//www.foobar.com/と http://www.foobar.com/index.htmlは同じページである可能性があります。ただし、Webサイトのリンクがhttp://www.foobar.com/と http://www.foobar.com/index.htmlの両方を参照している場合、これら2つのページがキャッチされます。また、http： //www.foobar.com/には名前が必要であるため、ローカルでWebサイトを閲覧したい場合（/はインデックス自体ではなくディレクトリリストを提供します）、HTTrackは名前を見つける必要があります。したがって、2つのindex.htmlが生成されます。1つは-2で、ファイルの名前を変更する必要があることを示します。

ファイルの重複を避けるために、 http ：//www.foobar.com/と http://www.foobar.com/index.htmlは同じリンクであると考えるのは良い考えではありませんか？いいえ、最上位のインデックス（/）は任意のファイル名を参照でき、index.htmlが一般的にデフォルトの名前である場合は、index.htm、またはindex.php3、mydog.jpg、または想像できるあらゆるものを選択できます。（一部のウェブマスターは本当に夢中です）

注：まれに、Webサイトが別のファイルにリダイレクトするときに、重複するデータファイルが見つかることがあります。この問題はまれであるはずであり、フィルターを使用して回避できる可能性があります。

参照：プロジェクトの更新

html - Httrackが同じファイルを再度ダウンロードしないようにするにはどうすればよいですか？

3 に答える 3

Related

Reference