スコープと機能の観点から、誰かがクローラーとスクレーパーを区別できますか?
6 に答える
クローラーは Web ページを取得します。つまり、開始アドレス (または開始アドレスのセット) といくつかの条件 (たとえば、リンクの深さ、無視するファイルの種類など) が与えられると、開始点からリンクされているものはすべてダウンロードします ( s)。
スクレーパーは、ダウンロードされたページ、またはより一般的な意味で、表示用にフォーマットされたデータを取得し、それらのページからデータを抽出 (しようとします) して、(たとえば) データベースに保存し、必要に応じて操作できるようにします。 .
結果の使い方によっては、スクレイピングは情報の所有者の権利や Web サイトの使用に関するユーザー契約を侵害する可能性があります (場合によっては、クロールも後者に違反します)。多くのサイトには、ルートにrobots.txtという名前のファイルが含まれています(つまり、 URL を持つhttp://server/robots.txt
)。これにより、クローラーがそのサイトをどのように処理する必要があるかを指定します。特に、クローラーがアクセスを試みてはならない (部分的な) URL をリストできます。 . これらは、必要に応じて、クローラー (ユーザー エージェント) ごとに個別に指定できます。
クローラーは、リンクをたどって Web を閲覧します。例として、ページをインデックスに登録する Google ロボットがあります。スクレイパーはフォームから値を抽出しますが、必ずしも Web とは関係ありません。
Web クローラーはロジックでリンク (Urls - ページ) を取得し、スクレーパーは HTML から値を取得 (抽出) します。
非常に多くの Web クローラー ツールがあります。ページにアクセスして、いくつかを確認してください。任意の XML - HTML パーサーを使用して、クロールされたページからデータを抽出 (スクレイピング) できます。(データの解析と抽出にはJsoupをお勧めします)
私はこの質問がかなり古いことを知っていますが、ここで疑問に思う初心者のためにとにかく答えます.
私が収集して理解していることによると、これら 2 つの用語は似ているために混同されることが多く、人々はそれらを同じものとして参照することがよくあります。
ただし、まったく同じではありません。クローラー (またはスパイダー) は、スターター ページからクロールするページ内の各リンクをたどります。これが、一種のクモの巣状のページを作成するため、スパイダー ボットとも呼ばれる理由です。
スクレーパーは、通常はクローラーでダウンロードされたページから、ページからデータを抽出します。
これらのいずれかに興味がある場合は、Norconex HTTP Collectorを試すことができます。
スクレイパーとクローラーは常に区別されるわけではありません。つまり、スクレイピングを行うクローラーを見つけることができます。実際、スクレイパー クローラーは両方を実行しており、それに応じて名前が付けられています。
- URL にクロールします。つまり、そのメイン URL のすべての URL をインデックスに登録します。
- クロールの深さは、インデックス作成が URL ツリーでどこまで進むかです
- 次に、正規表現で定義したものをスクレイピングします