“httrack”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

23866 参照

http - httrack を使用して単一ページをミラーリングする

サイト全体ではなく、単一のページをダウンロードするために、httrack ( http://www.httrack.com/ ) を使用しようとしています。したがって、たとえば、www.google.com をダウンロードするために httrack を使用する場合、www.google.com の下にある html とすべてのスタイルシート、画像、JavaScript のみをダウンロードし、images.google.com へのリンクをたどらないでください。 labs.google.com または www.google.com/subdir/ など

オプションを試してみ-wましたが、違いはありませんでした。

正しいコマンドは何でしょうか?

編集

使用してみhttrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1ましたが、画像をコピーできません。

私が基本的に望んでいるのは、そのドメインのインデックスファイルをすべてのアセットと共にダウンロードすることですが、外部リンクまたは内部リンクのコンテンツはダウンロードしません。

2009-12-28T07:55:19.370

0 投票する

2 に答える

4000 参照

unix - httrack フォローリダイレクト

ユーザーから提供された URL から再帰的に Web ページをミラーリングしようとしています (もちろん深さ制限が設定されています)。Wget は css/js からのリンクをキャッチできなかったので、httrackを使用することにしました。

次のようなサイトをミラーリングしようとしています。

この Web サイトはhttp://www.onet.pl:80へのリダイレクト (301) を使用し、httrack は index.html ページを次のようにダウンロードします。

そしてそれ以上のものはありません！私が実行すると：

それは私が望むことをします。

リダイレクト後に httrack を作成する方法はありますか? 現在、httrack の URL に「www.」+urlを追加するだけですが、これは実際の解決策ではありません (すべてのユーザーケースをカバーしているわけではありません)。Linux 用のより良い Web サイトミラーリングツールはありますか?

unix download automation httrack

2012-08-11T21:26:06.910

0 投票する

2 に答える

7779 参照

curl - httrack wget curl スクレイプ & フェッチ

HTTrack など、Web サイトの静的コピーをダウンロードするためのツールがインターネット上に多数あります。Mozenda など、Web サイトからコンテンツを「スクレイピング」するための商用ツールも多数あります。次に、PHP や *nix などのプログラムに明らかに組み込まれているツールがあり、「file_get_contents」、「wget」、「cURL」、または単に「file()」を実行できます。

私はこれらすべてに完全に混乱しており、主な理由は、私が遭遇した記述のどれもが同じ語彙を使用していないことにあると思います. 少なくとも表面的には、彼らは皆同じことをしているように見えますが、そうではないかもしれません.

それが私の質問です。これらのツールは正確には何をしているのでしょうか? 彼らは同じことをしていますか？彼らは異なるテクノロジーを介して同じことをしていますか？同じことをしていない場合、どのように違うのでしょうか?

curl download web-scraping wget httrack

2013-09-30T15:39:54.873

0 投票する

0 に答える

3959 参照

javascript - javascriptの実行中にhttrackでWebサイトをミラーリングする

www.youtube.com/tv のミラーを保存したいです。私は明らかにビデオを保存したくありません。ローカルコピーで Web サイトを実行するコードが必要です。それ以外はすべてリモートのままにできます。必要なコードは、主に live.js と app-prod.js の 2 つのファイルに含まれています。

httrackを使ってみました。javascript を解析して、最初のファイル (live.js) 以降のものをロードする際に問題があります。%P パラメータは役に立ちません。

次のファイルをロードするためにいくつかの JavaScript を実行する必要があるため、live.js より先には進みません。

これは、任意のブラウザーで手動で実行できることを知っています。プロセスを自動化したい。

httrack は単独でこれを行うことができますか? はいの場合、どのように？

javascript http download youtube httrack

2013-11-13T15:51:41.840

0 投票する

2 に答える

6862 参照

php - Cookie を使用して HTTrack が可能

簡単にURLからページをダウンロードしたい。ただし、最初のページでは、通常のブラウザーから通常行うように、ログインする必要があります。しかし、HTTrack は私の Cookie やログインを使用できないため、最初のページからダウンロードしています。

これを回避する方法はありますか？

php httrack

2013-12-03T22:14:42.167

0 投票する

3 に答える

5097 参照

http - HTTrack が現在のドメインのファイルのみをダウンロードするようにするにはどうすればよいですか?

どんなに頑張っても、httrack で他のドメインへのリンクをそのままにしておくことはできないようです。引数を使用してみましたが--stay-on-same-domain、うまくいかないようです。また、フィルターを追加しようとしましたが、それはできません。

ここに欠けているオプションがあるに違いありません。

http download httrack

2014-05-02T05:49:13.653

0 投票する

1 に答える

283 参照

mysql - この複雑なコマンドラインの grep ステートメントの結果を mysql データベースにプッシュするにはどうすればよいですか?

このコードは、Web サイトの html ファイルを検索し、ドメイン名のリストを抽出します...

結果はこんな感じ。

domain1.com
domain2.com
domain3.com

このコードを非常に大規模な Web サイトで使用する予定であるため、非常に大きなドメイン名のリストが生成されます。さらに、上記のコードは多くの重複したドメイン名を生成します。したがって、重複が挿入されないように、一意のフィールドを使用して mysql データベースをセットアップします。

プログラミングに関する私の限られた知識を使用して、以下の行をハッキングしましたが、これは機能しません。コマンドを実行すると、エラーは発生せず、新しいコマンドプロンプト > と点滅するカーソルだけが表示されます。私は、正しい構文や方法論を使用していないと思います。また、コマンドラインではやりたいことを実行できない可能性があります。どんな助けでも大歓迎です。

はい、データベース名はドメイン、テーブル名はドメイン、フィールド名はドメインです。

mysql bash grep httrack

2014-05-24T22:31:11.507

0 投票する

1 に答える

106 参照

mysql - bash コマンドの変数値を MySQL に入力するにはどうすればよいですか?

次のコードは、Web サイトからすべてのドメイン名を抽出し$domain、httrackデータストリームの値に設定します。

$domain の値は次のようになります...

googlesyndication.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com peadig.com facebook.net ilovefreestuff.com w3.org ilovefreestuff.com yoast.com ilovefreestuff.com

データベースのセットアップがあり、このコマンドは完全に機能します。

変数内の個々のドメインを、1 つの結合されたコマンドライン内でデータストリーム$domainからオンザフライで MySQL データベースに挿入しようとしています。httrack私のクレイジーな考えでは、以下のように見えるはずです... 残念ながら、これは機能しません。出力が得られず、別の bash プロンプトが表示されます。

$domainMySQL データセルごとに 1 つのドメインを入力できるように、変数を個々のドメインに分割する方法がわかりません。また、コマンドがデータストリームである場合に、結果を MySQL にパイプする方法もわかりません。たぶん、for ループとカットコマンドが必要ですか?

mysql bash httrack

2014-05-25T17:00:06.453

0 投票する

3 に答える

2770 参照

linux - Linux - サイト全体の .mp3 ファイルをダウンロードするには?

Web サイト内のすべての mp3 ファイルをダウンロードしたい (ルートフォルダーとサブリンクも含む)。

たとえば、「http://example.org/musics/」とすべてのサブリンクからすべての .mp3 リンクをダウンロードしたいとします。

どうすればこれを行うことができますか?

ありがとうございました

linux ubuntu wget httrack

2014-11-13T20:53:54.940

問題タブ [httrack]

Reference