問題タブ [web-crawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - Web クローラーを作成する際の重要な考慮事項は何ですか?
今日、Web クローラーの作成/カスタマイズについて考え始めたばかりで、Web クローラー/ロボットのエチケットについてほとんど知りません。私が見つけたエチケットに関する記述の大部分は古くてぎこちないように見えるので、Web 開発者コミュニティから現在の (そして実用的な) 洞察を得たいと思います。
「サイト XYZ のマークアップは条件 ABC を満たしていますか?」という非常に単純な目的のために、クローラーを使用して「Web」を歩き回りたいと考えています。
これは私に多くの疑問を投げかけますが、最初に解決する必要がある2つの主な質問は次のとおりです。
- 最初から少し「不自然」に感じます。この種のことは受け入れられますか?
- 人々を動揺させないために、クローラーが考慮すべき具体的な考慮事項は何ですか?
web-crawler - サイトのデフォルトページのみを許可するrobot.txtを設定する方法
http://example.comにサイトがあるとします。ボットにホームページを表示させたいのですが、スパイダーには意味がないため、他のページはブロックする必要があります。言い換えると
http://example.comとhttp://example.com/は許可する必要がありますが、 http://example.com/anythingとhttp://example.com/someendpoint.aspxはブロックする必要があります。
さらに、特定のクエリ文字列がホームページにパススルーできるようにできれば素晴らしいと思います: http ://example.com?okparam=true
asp.net - asp.net動的サイトを静的サイトに変換するためのツール
asp.net Webサイトをスパイダーして静的サイトを作成するツールはありますか?
storage - rsync が未完成のソース ファイルを削除しないようにする
速度と質量の 2 つのマシンがあります。speed は高速のインターネット接続を備えており、大量のファイルをディスクにダウンロードするクローラーを実行しています。mass には多くのディスク容量があります。ダウンロードが完了したら、ファイルを高速から大量に移動したいと考えています。理想的には、次のように実行します。
しかし、まだダウンロードが終わっていないソース ファイルのリンクが rsync によって解除されるのではないかと心配しています。(ソースコードを見ましたが、これを防ぐものは何もありませんでした。) 何か提案はありますか?
language-agnostic - ウェブスクレイピングに最適なライブラリ
レストランの住所や特定の場所のさまざまなイベントの日付など、さまざまな Web ページからデータを取得したいと考えています。特定のサイト セットからこのデータを抽出するために使用できる最適なライブラリは何ですか?
web-crawler - クローラーの書き方は?
NPO の Web サイトやコンテンツをクロールしてその結果のリストを作成する単純なクローラーを作成しようと考えました。
これを行う方法について誰か考えがありますか?クローラーを開始するためにどこに向けますか? 調査結果を送り返し、クロールを続けるにはどうすればよいでしょうか? 見つけたものをどのように知るかなど。
html - 動的サイトを CD からデモできる静的サイトにするにはどうすればよいですか?
当社の Web アプリケーションの 1 つをクロールし、そこから静的サイトを作成する方法を見つける必要があります。このサイトを CD に焼き付けて、出張中の営業担当者が Web サイトのデモを行うために使用できます。バックエンドのデータ ストアは非常に多くのシステムに分散しているため、営業担当者のラップトップの VM でサイトを実行するだけでは機能しません。また、一部のクライアントにいる間は、インターネットにアクセスできません(インターネットなし、携帯電話....プリミティブ、私は知っています)。
リンクのクリーンアップ、フラッシュ、少しの ajax、css などを処理できるクローラーの推奨事項はありますか? 可能性が低いことはわかっていますが、独自のツールを作成する前に、ここで質問を投げ捨てることにしました。
.net - Perl の LWP / WWW::Mechanize に相当する .NET はありますか?
.NET のHttpWebRequest
/Response
オブジェクトを操作した後、これを使用して Web サイトをクロールするよりも、自分自身を撃ちたいと思います。URL を取得できる既存の .NET ライブラリを探しており、リンクをたどったり、ページ上のフォームを抽出/入力/送信したりできます。PerlLWP
とWWW::Mechanize
モジュールはこれを非常にうまく行っていますが、私は取り組んでいます.NET プロジェクトで。
HTML Agility Packに出くわしました。これはすばらしく見えますが、リンク/フォームをシミュレートするには至りません。
そのようなツールはすでに存在しますか?
webkit - Web クローラーの作成 - Webkit パッケージの使用
Webクローラーを構築しようとしています。
私は2つのことが必要です:
- HTML を DOM オブジェクトに変換します。
- 既存の JavaScript をオンデマンドで実行します。
また、必要に応じて追加の JavaScript を実行するオプションが必要です (イベント:など)。まず、適切なドキュメント ソースが見つかりませんでした
onMouseOver
。Webkit のメイン ページ
を検索しましたが、パッケージのユーザー向けの情報は多くなく、有用なコード例もありませんでした。また、一部のフォーラムでは、クローラーに Webkit インターフェースを使用するのではなく、直接 DOM および Javascript 内部パッケージを使用するよう指示されているのを見てきました。
onMouseClick
DocumentationとCode Examples を探しています。
また、適切な使用に関する推奨事項。
作業環境:
- OS: Windows
- 言語: C++
web-crawler - 優れた Web クローラー ツールとは
大量の Web ページのインデックスを作成する必要があります。優れた Web クローラー ユーティリティはありますか? 私は .NET が通信できるものを望んでいますが、それはショーストッパーではありません。
私が本当に必要としているのは、サイトの URL を指定できるもので、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。