問題タブ [web-crawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
9 に答える
3131 参照

web-crawler - Web クローラーを作成する際の重要な考慮事項は何ですか?

今日、Web クローラーの作成/カスタマイズについて考え始めたばかりで、Web クローラー/ロボットのエチケットについてほとんど知りません。私が見つけたエチケットに関する記述の大部分は古くてぎこちないように見えるので、Web 開発者コミュニティから現在の (そして実用的な) 洞察を得たいと思います。

「サイト XYZ のマークアップは条件 ABC を満たしていますか?」という非常に単純な目的のために、クローラーを使用して「Web」を歩き回りたいと考えています。

これは私に多くの疑問を投げかけますが、最初に解決する必要がある2つの主な質問は次のとおりです。

  • 最初から少し「不自然」に感じます。この種のことは受け入れられますか?
  • 人々を動揺させないために、クローラーが考慮すべき具体的な考慮事項は何ですか?
0 投票する
5 に答える
11764 参照

web-crawler - サイトのデフォルトページのみを許可するrobot.txtを設定する方法

http://example.comにサイトがあるとします。ボットにホームページを表示させたいのですが、スパイダーには意味がないため、他のページはブロックする必要があります。言い換えると

http://example.comhttp://example.com/は許可する必要がありますが、 http://example.com/anythinghttp://example.com/someendpoint.aspxはブロックする必要があります。

さらに、特定のクエリ文字列がホームページにパススルーできるようにできれば素晴らしいと思います: http ://example.com?okparam=true

しかし、 http://example.com?anythingbutokparam=trueではありません

0 投票する
4 に答える
1551 参照

asp.net - asp.net動的サイトを静的サイトに変換するためのツール

asp.net Webサイトをスパイダーして静的サイトを作成するツールはありますか?

0 投票する
4 に答える
14446 参照

storage - rsync が未完成のソース ファイルを削除しないようにする

速度と質量の 2 つのマシンがあります。speed は高速のインターネット接続を備えており、大量のファイルをディスクにダウンロードするクローラーを実行しています。mass には多くのディスク容量があります。ダウンロードが完了したら、ファイルを高速から大量に移動したいと考えています。理想的には、次のように実行します。

しかし、まだダウンロードが終わっていないソース ファイルのリンクが rsync によって解除されるのではないかと心配しています。(ソースコードを見ましたが、これを防ぐものは何もありませんでした。) 何か提案はありますか?

0 投票する
13 に答える
7896 参照

language-agnostic - ウェブスクレイピングに最適なライブラリ

レストランの住所や特定の場所のさまざまなイベントの日付など、さまざまな Web ページからデータを取得したいと考えています。特定のサイト セットからこのデータを抽出するために使用できる最適なライブラリは何ですか?

0 投票する
10 に答える
59304 参照

web-crawler - クローラーの書き方は?

NPO の Web サイトやコンテンツをクロールしてその結果のリストを作成する単純なクローラーを作成しようと考えました。

これを行う方法について誰か考えがありますか?クローラーを開始するためにどこに向けますか? 調査結果を送り返し、クロールを続けるにはどうすればよいでしょうか? 見つけたものをどのように知るかなど。

0 投票する
5 に答える
5203 参照

html - 動的サイトを CD からデモできる静的サイトにするにはどうすればよいですか?

当社の Web アプリケーションの 1 つをクロールし、そこから静的サイトを作成する方法を見つける必要があります。このサイトを CD に焼き付けて、出張中の営業担当者が Web サイトのデモを行うために使用できます。バックエンドのデータ ストアは非常に多くのシステムに分散しているため、営業担当者のラップトップの VM でサイトを実行するだけでは機能しません。また、一部のクライアントにいる間は、インターネットにアクセスできません(インターネットなし、携帯電話....プリミティブ、私は知っています)。

リンクのクリーンアップ、フラッシュ、少しの ajax、css などを処理できるクローラーの推奨事項はありますか? 可能性が低いことはわかっていますが、独自のツールを作成する前に、ここで質問を投げ捨てることにしました。

0 投票する
1 に答える
1652 参照

.net - Perl の LWP / WWW::Mechanize に相当する .NET はありますか?

.NET のHttpWebRequest/Responseオブジェクトを操作した後、これを使用して Web サイトをクロールするよりも、自分自身を撃ちたいと思います。URL を取得できる既存の .NET ライブラリを探しており、リンクをたどったり、ページ上のフォームを抽出/入力/送信したりできます。PerlLWPWWW::Mechanizeモジュールはこれを非常にうまく行っていますが、私は取り組んでいます.NET プロジェクトで。

HTML Agility Packに出くわしました。これはすばらしく見えますが、リンク/フォームをシミュレートするには至りません。

そのようなツールはすでに存在しますか?

0 投票する
1 に答える
2683 参照

webkit - Web クローラーの作成 - Webkit パッケージの使用

Webクローラーを構築しようとしています。
私は2つのことが必要です:

  • HTML を DOM オブジェクトに変換します。
  • 既存の JavaScript をオンデマンドで実行します。
私が期待する結果は、オンロードで実行される JavaScript が既に実行されている DOM オブジェクトです。
また、必要に応じて追加の JavaScript を実行するオプションが必要です (イベント:など)。まず、適切なドキュメント ソースが見つかりませんでしたonMouseOverWebkit のメイン ページ を検索しましたが、パッケージのユーザー向けの情報は多くなく、有用なコード例もありませんでした。また、一部のフォーラムでは、クローラーに Webkit インターフェースを使用するのではなく、直接 DOM および Javascript 内部パッケージを使用するよう指示されているのを見てきました。 onMouseClick

DocumentationCode Examples を探しています。
また、適切な使用に関する推奨事項。

作業環境:
  • OS: Windows
  • 言語: C++

0 投票する
6 に答える
55113 参照

web-crawler - 優れた Web クローラー ツールとは

大量の Web ページのインデックスを作成する必要があります。優れた Web クローラー ユーティリティはありますか? 私は .NET が通信できるものを望んでいますが、それはショーストッパーではありません。

私が本当に必要としているのは、サイトの URL を指定できるもので、すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。