このWebサイトをダウンロードするためにhttrackを使用しています:http: //4minutearticles.com/
ただし、問題は、作成者が自分のWebサイトのすべてのページのメインページに戻るリンクを持っていることです。
例: http: //4minutearticles.com/ext/
親ディレクトリリンクメインページにリダイレクトすると、ソフトウェアのダウンロードが再開されます
このループが発生しないようにするにはどうすればよいですか?
このWebサイトをダウンロードするためにhttrackを使用しています:http: //4minutearticles.com/
ただし、問題は、作成者が自分のWebサイトのすべてのページのメインページに戻るリンクを持っていることです。
例: http: //4minutearticles.com/ext/
親ディレクトリリンクメインページにリダイレクトすると、ソフトウェアのダウンロードが再開されます
このループが発生しないようにするにはどうすればよいですか?
以下のリンクにある質問への回答をお読みください。
「ファイルが重複しています。どうなっているのですか?」
リンク:http ://www.httrack.com/html/faq.html#Q1b11
次のリンクの「Filters:Advanced」もご覧ください。
http://www.httrack.com/html/filters.html
それはあなたの問題に役立つかもしれません。
フィルタを使用して、HTTRACKが同じファイルまたはフォルダをダウンロードしないようにすることができます。これを行うには、[設定とミラーオプション]ラベルの前にある[オプションの設定]ボタンをクリックし、[スキャンルール]タブを開いてから[リンクを除外]ボタンを開き、必要に応じてルールを設定します。
これは通常、上位のインデックス(index.htmlおよびindex-2.html)に当てはまります。
これは一般的な問題ですが、簡単に回避することはできません。
たとえば、http://www.foobar.com/と http://www.foobar.com/index.htmlは同じページである可能性があります。ただし、Webサイトのリンクがhttp://www.foobar.com/と http://www.foobar.com/index.htmlの両方を参照している場合、これら2つのページがキャッチされます。また、http: //www.foobar.com/には名前が必要であるため、ローカルでWebサイトを閲覧したい場合(/はインデックス自体ではなくディレクトリリストを提供します)、HTTrackは名前を見つける必要があります。したがって、2つのindex.htmlが生成されます。1つは-2で、ファイルの名前を変更する必要があることを示します。
ファイルの重複を避けるために、 http ://www.foobar.com/と http://www.foobar.com/index.htmlは同じリンクであると考えるのは良い考えではありませんか?いいえ、最上位のインデックス(/)は任意のファイル名を参照でき、index.htmlが一般的にデフォルトの名前である場合は、index.htm、またはindex.php3、mydog.jpg、または想像できるあらゆるものを選択できます。(一部のウェブマスターは本当に夢中です)
注:まれに、Webサイトが別のファイルにリダイレクトするときに、重複するデータファイルが見つかることがあります。この問題はまれであるはずであり、フィルターを使用して回避できる可能性があります。
参照:プロジェクトの更新