4

このWebサイトをダウンロードするためにhttrackを使用しています:http: //4minutearticles.com/

ただし、問題は、作成者が自分のWebサイトのすべてのページのメインページに戻るリンクを持っていることです。

例: http: //4minutearticles.com/ext/

親ディレクトリリンクメインページにリダイレクトすると、ソフトウェアのダウンロードが再開されます

このループが発生しないようにするにはどうすればよいですか?

4

3 に答える 3

3

以下のリンクにある質問への回答をお読みください。

「ファイルが重複しています。どうなっているのですか?」

リンク:http ://www.httrack.com/html/faq.html#Q1b11

次のリンクの「Filters:Advanced」もご覧ください。

http://www.httrack.com/html/filters.html

それはあなたの問題に役立つかもしれません。

于 2012-08-10T06:00:32.637 に答える
1

フィルタを使用して、HTTRACKが同じファイルまたはフォルダをダウンロードしないようにすることができます。これを行うには、[設定とミラーオプション]ラベルの前にある[オプションの設定]ボタンをクリックし、[スキャンルール]タブを開いてから[リンクを除外]ボタンを開き、必要に応じてルールを設定します。

于 2012-08-10T05:43:10.373 に答える
0

これは通常、上位のインデックス(index.htmlおよびindex-2.html)に当てはまります。

これは一般的な問題ですが、簡単に回避することはできません。

たとえば、http://www.foobar.com/http://www.foobar.com/index.htmlは同じページである可能性があります。ただし、Webサイトのリンクがhttp://www.foobar.com/http://www.foobar.com/index.htmlの両方を参照している場合、これら2つのページがキャッチされます。また、http: //www.foobar.com/には名前が必要であるため、ローカルでWebサイトを閲覧したい場合(/はインデックス自体ではなくディレクトリリストを提供します)、HTTrackは名前を見つける必要があります。したがって、2つのindex.htmlが生成されます。1つは-2で、ファイルの名前を変更する必要があることを示します。

ファイルの重複を避けるために、 http ://www.foobar.com/と http://www.foobar.com/index.htmlは同じリンクであると考えるのは良い考えではありませんか?いいえ、最上位のインデックス(/)は任意のファイル名を参照でき、index.htmlが一般的にデフォルトの名前である場合は、index.htm、またはindex.php3、mydog.jpg、または想像できるあらゆるものを選択できます。(一部のウェブマスターは本当に夢中です)

注:まれに、Webサイトが別のファイルにリダイレクトするときに、重複するデータファイルが見つかることがあります。この問題はまれであるはずであり、フィルターを使用して回避できる可能性があります。

参照:プロジェクトの更新

于 2014-06-30T15:51:00.737 に答える