問題タブ [httrack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
4179 参照

wget - wgetまたはhttrackを使用して、特定のファイルタイプをフォルダー(およびそのサブフォルダーのみ)からダウンロードするにはどうすればよいですか?

HTTrack または Wget を使用して、Web サイトからいくつかの .docx ファイルをダウンロードしようとしています。これをフォルダーに対してのみ実行したいのですが、それはサブフォルダーです。例: www.examplewebsite.com/doc (これはさらに 5 レベル下がります)

これを行うにはどうすればよいでしょうか?

0 投票する
0 に答える
741 参照

wget - Httrack または Wget による Web サイトのクロールをブロックするのは何ですか?

Web サイトのクローンを作成して、オフラインでのプレゼンテーション用に表示しようとしています。ただし、Httrack または Wget を使用して試してみましたが、どちらもソース ツリーの第 2 レベルで停止しています。何が原因でしょうか?

これは Wget コマンドです:wget -r -linf -k -p -E robots=off http://ouistipix.com/

これは Httrack 用です: httrack http://ouistipix.com/ (デフォルト)

私が間違っていることについて何か考えはありますか?または、それ以上のクロールをブロックするものは何ですか?

これが役立つ場合、これは Httrack のログです:

0 投票する
1 に答える
897 参照

wget - 特定のパスで始まるリンクを含むすべてのファイルを含む Web サイトをダウンロードする方法

Wordpress テンプレートInovadoのスタイリングに基づいて静的 Web サイトを構築したいと考えています。次のコマンドで HTTrack (Linux) を使用して Web サイトをダウンロードしました。

httrack http://inovado.hellominti.com

結果index.htmlには、次のようないくつかのスタイルシートが含まれます。

これらのリンクは への「絶対」リンクhttp://inovado.hellominti.comです。ただし、これらのファイルをローカル ディレクトリにダウンロードし、それに応じてファイルを調整したいと考えていindex.htmlます。

これを有効にするようなhttrackオプションがあるのを見てきましたが、ドキュメントからその方法を理解できませんでした。--get_files何か案は?wget(可能であれば、これを実装することにも興味があります)。

0 投票する
0 に答える
278 参照

url - 日本語でエンコードされた URL に遭遇すると Httrack に障害が発生する

通常は Httrack で問題はありませんが、今回は、次の日本語の URL のような非 ASCII 文字を含むページを取得できないことがわかりました。

domain.com/リーク情報真偽のほ/

(ブラウザでこのように読む: domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/ )

Httrack はフォルダーの 50% を取得できますが、フォルダー内の html ファイルはすべて 0kb です。残りの 50% は文字列が完全に文字化けしており、同様に空です。

次に、DOS/ISO スパイダー オプションを試してみましたが、構造が大きく変わりすぎました (そして、すべてのファイル/フォルダーが大文字になります)。

これらの URL で httrack を正しく動作させる方法はありますか?

0 投票する
1 に答える
485 参照

html - HTTrack がファイルが見つからないことを返す

次のコマンドを使用して、HTTrack で Web サイトをダウンロードしました。

index.html ファイルを web サイト フォルダーに配置して実行しました。Chrome から次のメッセージが返されます: ファイルが見つかりません。通常、私が httrack で解析する Web サイトは、ファイル システム上で問題なく動作するためです。この行動の理由は何ですか?

0 投票する
4 に答える
6681 参照

httrack - httrack を使用して、外部サイトではなく 1 つのサイトのみをダウンロードします

httrackを使用して phpbb フォーラムをダウンロードしようとしましたが、使用する設定に関係なく、wikipedia サイト全体や、フォーラム内のどこかにリンクがある他の多くの Web サイトのダウンロードを停止することはできません...

私がなんとかしたことは、インデックスページのみをダウンロードするようにしましたが、それも良くありません。

そんな設定かと思った

オプション->スキャンルールでうまくいきますが、ウィキペディア全体を再度ダウンロードします:(

0 投票する
2 に答える
966 参照

html - index****.html ではなく元の名前でファイルを保存するように httrack を取得するにはどうすればよいですか?

ここの HTTrack ドキュメントの例に従っています: http://httrack.kauler.com/help/User-defined_structure

スクレイピングする必要があるサイトには、次の構造の URL があります。

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

HTTrack を使用して、サイトをダウンロードし、ファイルを次の形式で保存したい

HelpTopics.html MoreHelp.html

上記のリンクから変更されたコマンドラインでこれを使用しています:

httrack "https://www.example.com" %n%[index.php?:-:::].%t

しかし、私はまだすべてのファイルindex2b26.htmlindex2de7.htmlなどとして保存しています。

HTTrack オプションのどこが間違っていますか? 元のサイトにファイル拡張子がないため、これは壊れていますexample.comか?