問題タブ [httrack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
wget - wgetまたはhttrackを使用して、特定のファイルタイプをフォルダー(およびそのサブフォルダーのみ)からダウンロードするにはどうすればよいですか?
HTTrack または Wget を使用して、Web サイトからいくつかの .docx ファイルをダウンロードしようとしています。これをフォルダーに対してのみ実行したいのですが、それはサブフォルダーです。例: www.examplewebsite.com/doc (これはさらに 5 レベル下がります)
これを行うにはどうすればよいでしょうか?
wget - Httrack または Wget による Web サイトのクロールをブロックするのは何ですか?
Web サイトのクローンを作成して、オフラインでのプレゼンテーション用に表示しようとしています。ただし、Httrack または Wget を使用して試してみましたが、どちらもソース ツリーの第 2 レベルで停止しています。何が原因でしょうか?
これは Wget コマンドです:wget -r -linf -k -p -E robots=off http://ouistipix.com/
これは Httrack 用です: httrack http://ouistipix.com/
(デフォルト)
私が間違っていることについて何か考えはありますか?または、それ以上のクロールをブロックするものは何ですか?
これが役立つ場合、これは Httrack のログです:
wget - 特定のパスで始まるリンクを含むすべてのファイルを含む Web サイトをダウンロードする方法
Wordpress テンプレートInovadoのスタイリングに基づいて静的 Web サイトを構築したいと考えています。次のコマンドで HTTrack (Linux) を使用して Web サイトをダウンロードしました。
httrack http://inovado.hellominti.com
結果index.html
には、次のようないくつかのスタイルシートが含まれます。
これらのリンクは への「絶対」リンクhttp://inovado.hellominti.com
です。ただし、これらのファイルをローカル ディレクトリにダウンロードし、それに応じてファイルを調整したいと考えていindex.html
ます。
これを有効にするようなhttrack
オプションがあるのを見てきましたが、ドキュメントからその方法を理解できませんでした。--get_files
何か案は?wget
(可能であれば、これを実装することにも興味があります)。
url - 日本語でエンコードされた URL に遭遇すると Httrack に障害が発生する
通常は Httrack で問題はありませんが、今回は、次の日本語の URL のような非 ASCII 文字を含むページを取得できないことがわかりました。
domain.com/リーク情報真偽のほ/
(ブラウザでこのように読む: domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/ )
Httrack はフォルダーの 50% を取得できますが、フォルダー内の html ファイルはすべて 0kb です。残りの 50% は文字列が完全に文字化けしており、同様に空です。
次に、DOS/ISO スパイダー オプションを試してみましたが、構造が大きく変わりすぎました (そして、すべてのファイル/フォルダーが大文字になります)。
これらの URL で httrack を正しく動作させる方法はありますか?
html - HTTrack がファイルが見つからないことを返す
次のコマンドを使用して、HTTrack で Web サイトをダウンロードしました。
index.html ファイルを web サイト フォルダーに配置して実行しました。Chrome から次のメッセージが返されます: ファイルが見つかりません。通常、私が httrack で解析する Web サイトは、ファイル システム上で問題なく動作するためです。この行動の理由は何ですか?
httrack - httrack を使用して、外部サイトではなく 1 つのサイトのみをダウンロードします
httrackを使用して phpbb フォーラムをダウンロードしようとしましたが、使用する設定に関係なく、wikipedia サイト全体や、フォーラム内のどこかにリンクがある他の多くの Web サイトのダウンロードを停止することはできません...
私がなんとかしたことは、インデックスページのみをダウンロードするようにしましたが、それも良くありません。
そんな設定かと思った
オプション->スキャンルールでうまくいきますが、ウィキペディア全体を再度ダウンロードします:(
html - index****.html ではなく元の名前でファイルを保存するように httrack を取得するにはどうすればよいですか?
ここの HTTrack ドキュメントの例に従っています: http://httrack.kauler.com/help/User-defined_structure
スクレイピングする必要があるサイトには、次の構造の URL があります。
https://www.example.com/index.php?HelpTopics
https://www.example.com/index.php?MoreHelp
等
HTTrack を使用して、サイトをダウンロードし、ファイルを次の形式で保存したい
HelpTopics.html
MoreHelp.html
等
上記のリンクから変更されたコマンドラインでこれを使用しています:
httrack "https://www.example.com" %n%[index.php?:-:::].%t
しかし、私はまだすべてのファイルindex2b26.html
をindex2de7.html
などとして保存しています。
HTTrack オプションのどこが間違っていますか? 元のサイトにファイル拡張子がないため、これは壊れていますexample.com
か?