問題タブ [httrack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
http - httrack を使用して単一ページをミラーリングする
サイト全体ではなく、単一のページをダウンロードするために、httrack ( http://www.httrack.com/ ) を使用しようとしています。したがって、たとえば、www.google.com をダウンロードするために httrack を使用する場合、www.google.com の下にある html とすべてのスタイルシート、画像、JavaScript のみをダウンロードし、images.google.com へのリンクをたどらないでください。 labs.google.com または www.google.com/subdir/ など
オプションを試してみ-w
ましたが、違いはありませんでした。
正しいコマンドは何でしょうか?
編集
使用してみhttrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1
ましたが、画像をコピーできません。
私が基本的に望んでいるのは、そのドメインのインデックス ファイルをすべてのアセットと共にダウンロードすることですが、外部リンクまたは内部リンクのコンテンツはダウンロードしません。
unix - httrack フォロー リダイレクト
ユーザーから提供された URL から再帰的に Web ページをミラーリングしようとしています (もちろん深さ制限が設定されています)。Wget は css/js からのリンクをキャッチできなかったので、httrackを使用することにしました。
次のようなサイトをミラーリングしようとしています。
この Web サイトはhttp://www.onet.pl:80へのリダイレクト (301) を使用し、httrack は index.html ページを次のようにダウンロードします。
そしてそれ以上のものはありません!私が実行すると:
それは私が望むことをします。
リダイレクト後に httrack を作成する方法はありますか? 現在、httrack の URL に「www.」+urlを追加するだけですが、これは実際の解決策ではありません (すべてのユーザー ケースをカバーしているわけではありません)。Linux 用のより良い Web サイト ミラーリング ツールはありますか?
curl - httrack wget curl スクレイプ & フェッチ
HTTrack など、Web サイトの静的コピーをダウンロードするためのツールがインターネット上に多数あります。Mozenda など、Web サイトからコンテンツを「スクレイピング」するための商用ツールも多数あります。次に、PHP や *nix などのプログラムに明らかに組み込まれているツールがあり、「file_get_contents」、「wget」、「cURL」、または単に「file()」を実行できます。
私はこれらすべてに完全に混乱しており、主な理由は、私が遭遇した記述のどれもが同じ語彙を使用していないことにあると思います. 少なくとも表面的には、彼らは皆同じことをしているように見えますが、そうではないかもしれません.
それが私の質問です。これらのツールは正確には何をしているのでしょうか? 彼らは同じことをしていますか?彼らは異なるテクノロジーを介して同じことをしていますか?同じことをしていない場合、どのように違うのでしょうか?
javascript - javascriptの実行中にhttrackでWebサイトをミラーリングする
www.youtube.com/tv のミラーを保存したいです。私は明らかにビデオを保存したくありません。ローカル コピーで Web サイトを実行するコードが必要です。それ以外はすべてリモートのままにできます。必要なコードは、主に live.js と app-prod.js の 2 つのファイルに含まれています。
httrackを使ってみました。javascript を解析して、最初のファイル (live.js) 以降のものをロードする際に問題があります。%P パラメータは役に立ちません。
次のファイルをロードするためにいくつかの JavaScript を実行する必要があるため、live.js より先には進みません。
これは、任意のブラウザーで手動で実行できることを知っています。プロセスを自動化したい。
httrack は単独でこれを行うことができますか? はいの場合、どのように?
php - Cookie を使用して HTTrack が可能
簡単にURLからページをダウンロードしたい。ただし、最初のページでは、通常のブラウザーから通常行うように、ログインする必要があります。しかし、HTTrack は私の Cookie やログインを使用できないため、最初のページからダウンロードしています。
これを回避する方法はありますか?
http - HTTrack が現在のドメインのファイルのみをダウンロードするようにするにはどうすればよいですか?
どんなに頑張っても、httrack で他のドメインへのリンクをそのままにしておくことはできないようです。引数を使用してみましたが--stay-on-same-domain
、うまくいかないようです。また、フィルターを追加しようとしましたが、それはできません。
ここに欠けているオプションがあるに違いありません。
mysql - この複雑なコマンド ラインの grep ステートメントの結果を mysql データベースにプッシュするにはどうすればよいですか?
このコードは、Web サイトの html ファイルを検索し、ドメイン名のリストを抽出します...
結果はこんな感じ。
- domain1.com
- domain2.com
- domain3.com
このコードを非常に大規模な Web サイトで使用する予定であるため、非常に大きなドメイン名のリストが生成されます。さらに、上記のコードは多くの重複したドメイン名を生成します。したがって、重複が挿入されないように、一意のフィールドを使用して mysql データベースをセットアップします。
プログラミングに関する私の限られた知識を使用して、以下の行をハッキングしましたが、これは機能しません。コマンドを実行すると、エラーは発生せず、新しいコマンド プロンプト > と点滅するカーソルだけが表示されます。私は、正しい構文や方法論を使用していないと思います。また、コマンドラインではやりたいことを実行できない可能性があります。どんな助けでも大歓迎です。
はい、データベース名はドメイン、テーブル名はドメイン、フィールド名はドメインです。
mysql - bash コマンドの変数値を MySQL に入力するにはどうすればよいですか?
次のコードは、Web サイトからすべてのドメイン名を抽出し$domain
、httrack
データ ストリームの値に設定します。
$domain の値は次のようになります...
googlesyndication.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com facebook.com facebook.com ilovefreestuff.com ilovefreestuff.com peadig.com facebook.net ilovefreestuff.com w3.org ilovefreestuff.com yoast.com ilovefreestuff.com
データベースのセットアップがあり、このコマンドは完全に機能します。
変数内の個々のドメインを、1 つの結合されたコマンド ライン内でデータ ストリーム$domain
からオンザフライで MySQL データベースに挿入しようとしています。httrack
私のクレイジーな考えでは、以下のように見えるはずです... 残念ながら、これは機能しません。出力が得られず、別の bash プロンプトが表示されます。
$domain
MySQL データ セルごとに 1 つのドメインを入力できるように、変数を個々のドメインに分割する方法がわかりません。また、コマンドがデータ ストリームである場合に、結果を MySQL にパイプする方法もわかりません。たぶん、for ループとカット コマンドが必要ですか?
linux - Linux - サイト全体の .mp3 ファイルをダウンロードするには?
Web サイト内のすべての mp3 ファイルをダウンロードしたい (ルート フォルダーとサブリンクも含む)。
たとえば、「http://example.org/musics/」とすべてのサブリンクからすべての .mp3 リンクをダウンロードしたいとします。
どうすればこれを行うことができますか?
ありがとうございました