web-crawler - クローラー対スクレーパー

Question

スコープと機能の観点から、誰かがクローラーとスクレーパーを区別できますか?

score 104 · Accepted Answer

クローラーは Web ページを取得します。つまり、開始アドレス (または開始アドレスのセット) といくつかの条件 (たとえば、リンクの深さ、無視するファイルの種類など) が与えられると、開始点からリンクされているものはすべてダウンロードします ( s)。

スクレーパーは、ダウンロードされたページ、またはより一般的な意味で、表示用にフォーマットされたデータを取得し、それらのページからデータを抽出 (しようとします) して、(たとえば) データベースに保存し、必要に応じて操作できるようにします。 .

結果の使い方によっては、スクレイピングは情報の所有者の権利や Web サイトの使用に関するユーザー契約を侵害する可能性があります (場合によっては、クロールも後者に違反します)。多くのサイトには、ルートにrobots.txtという名前のファイルが含まれています(つまり、 URL を持つhttp://server/robots.txt)。これにより、クローラーがそのサイトをどのように処理する必要があるかを指定します。特に、クローラーがアクセスを試みてはならない (部分的な) URL をリストできます。 . これらは、必要に応じて、クローラー (ユーザーエージェント) ごとに個別に指定できます。

score 5 · Accepted Answer

クローラーは、リンクをたどって Web を閲覧します。例として、ページをインデックスに登録する Google ロボットがあります。スクレイパーはフォームから値を抽出しますが、必ずしも Web とは関係ありません。

score 4 · Accepted Answer

Web クローラーはロジックでリンク (Urls - ページ) を取得し、スクレーパーは HTML から値を取得 (抽出) します。

非常に多くの Web クローラーツールがあります。ページにアクセスして、いくつかを確認してください。任意の XML - HTML パーサーを使用して、クロールされたページからデータを抽出 (スクレイピング) できます。(データの解析と抽出にはJsoupをお勧めします)

score 0 · Accepted Answer

私はこの質問がかなり古いことを知っていますが、ここで疑問に思う初心者のためにとにかく答えます.

私が収集して理解していることによると、これら 2 つの用語は似ているために混同されることが多く、人々はそれらを同じものとして参照することがよくあります。

ただし、まったく同じではありません。クローラー (またはスパイダー) は、スターターページからクロールするページ内の各リンクをたどります。これが、一種のクモの巣状のページを作成するため、スパイダーボットとも呼ばれる理由です。

スクレーパーは、通常はクローラーでダウンロードされたページから、ページからデータを抽出します。

これらのいずれかに興味がある場合は、Norconex HTTP Collectorを試すことができます。

score 0 · Accepted Answer

スクレイパーとクローラーは常に区別されるわけではありません。つまり、スクレイピングを行うクローラーを見つけることができます。実際、スクレイパークローラーは両方を実行しており、それに応じて名前が付けられています。

URL にクロールします。つまり、そのメイン URL のすべての URL をインデックスに登録します。
クロールの深さは、インデックス作成が URL ツリーでどこまで進むかです
次に、正規表現で定義したものをスクレイピングします

web-crawler - クローラー対スクレーパー

6 に答える 6

Related

Reference