“httrack”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

4179 参照

wget - wgetまたはhttrackを使用して、特定のファイルタイプをフォルダー(およびそのサブフォルダーのみ)からダウンロードするにはどうすればよいですか?

HTTrack または Wget を使用して、Web サイトからいくつかの .docx ファイルをダウンロードしようとしています。これをフォルダーに対してのみ実行したいのですが、それはサブフォルダーです。例: www.examplewebsite.com/doc (これはさらに 5 レベル下がります)

これを行うにはどうすればよいでしょうか？

wget httrack

2016-05-23T07:12:54.263

0 投票する

0 に答える

741 参照

wget - Httrack または Wget による Web サイトのクロールをブロックするのは何ですか?

Web サイトのクローンを作成して、オフラインでのプレゼンテーション用に表示しようとしています。ただし、Httrack または Wget を使用して試してみましたが、どちらもソースツリーの第 2 レベルで停止しています。何が原因でしょうか?

これは Wget コマンドです:wget -r -linf -k -p -E robots=off http://ouistipix.com/

これは Httrack 用です: httrack http://ouistipix.com/ (デフォルト)

私が間違っていることについて何か考えはありますか？または、それ以上のクロールをブロックするものは何ですか?

これが役立つ場合、これは Httrack のログです:

wget httrack

2016-05-30T21:22:36.713

0 投票する

1 に答える

897 参照

wget - 特定のパスで始まるリンクを含むすべてのファイルを含む Web サイトをダウンロードする方法

Wordpress テンプレートInovadoのスタイリングに基づいて静的 Web サイトを構築したいと考えています。次のコマンドで HTTrack (Linux) を使用して Web サイトをダウンロードしました。

httrack http://inovado.hellominti.com

結果index.htmlには、次のようないくつかのスタイルシートが含まれます。

これらのリンクはへの「絶対」リンクhttp://inovado.hellominti.comです。ただし、これらのファイルをローカルディレクトリにダウンロードし、それに応じてファイルを調整したいと考えていindex.htmlます。

これを有効にするようなhttrackオプションがあるのを見てきましたが、ドキュメントからその方法を理解できませんでした。--get_files何か案は？wget（可能であれば、これを実装することにも興味があります）。

wget httrack

2016-09-23T08:28:39.023

0 投票する

0 に答える

278 参照

url - 日本語でエンコードされた URL に遭遇すると Httrack に障害が発生する

通常は Httrack で問題はありませんが、今回は、次の日本語の URL のような非 ASCII 文字を含むページを取得できないことがわかりました。

domain.com/リーク情報真偽のほ/

(ブラウザでこのように読む: domain.com/E3%83%A0%E7%A3%A8%E3%81%8D%E3%82%82%E5%A4%A7%E4%BA%8B%EF% BC%81%E3%82%B9%E3%83%9E%E3%83%9B%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A0%E3%81% A7%E3%81%AE%E6%9C%80%E9%81%A9%E3%81%AA-2/ )

Httrack はフォルダーの 50% を取得できますが、フォルダー内の html ファイルはすべて 0kb です。残りの 50% は文字列が完全に文字化けしており、同様に空です。

次に、DOS/ISO スパイダーオプションを試してみましたが、構造が大きく変わりすぎました (そして、すべてのファイル/フォルダーが大文字になります)。

これらの URL で httrack を正しく動作させる方法はありますか?

url character-encoding httrack

2016-09-29T01:47:49.323

0 投票する

1 に答える

485 参照

html - HTTrack がファイルが見つからないことを返す

次のコマンドを使用して、HTTrack で Web サイトをダウンロードしました。

index.html ファイルを web サイトフォルダーに配置して実行しました。Chrome から次のメッセージが返されます: ファイルが見つかりません。通常、私が httrack で解析する Web サイトは、ファイルシステム上で問題なく動作するためです。この行動の理由は何ですか？

html html-parsing httrack

2016-10-09T11:49:48.163

0 投票する

4 に答える

6681 参照

httrack - httrack を使用して、外部サイトではなく 1 つのサイトのみをダウンロードします

httrackを使用して phpbb フォーラムをダウンロードしようとしましたが、使用する設定に関係なく、wikipedia サイト全体や、フォーラム内のどこかにリンクがある他の多くの Web サイトのダウンロードを停止することはできません...

私がなんとかしたことは、インデックスページのみをダウンロードするようにしましたが、それも良くありません。

そんな設定かと思った

オプション->スキャンルールでうまくいきますが、ウィキペディア全体を再度ダウンロードします:(

httrack

2016-12-13T18:12:43.593

0 投票する

2 に答える

966 参照

html - index****.html ではなく元の名前でファイルを保存するように httrack を取得するにはどうすればよいですか?

ここの HTTrack ドキュメントの例に従っています: http://httrack.kauler.com/help/User-defined_structure

スクレイピングする必要があるサイトには、次の構造の URL があります。

https://www.example.com/index.php?HelpTopics

https://www.example.com/index.php?MoreHelp

等

HTTrack を使用して、サイトをダウンロードし、ファイルを次の形式で保存したい

HelpTopics.html MoreHelp.html等

上記のリンクから変更されたコマンドラインでこれを使用しています：

httrack "https://www.example.com" %n%[index.php?:-:::].%t

しかし、私はまだすべてのファイルindex2b26.htmlをindex2de7.htmlなどとして保存しています。

HTTrack オプションのどこが間違っていますか? 元のサイトにファイル拡張子がないため、これは壊れていますexample.comか?

html web-scraping wget httrack

2017-07-11T19:28:33.903

問題タブ [httrack]

Reference