3

特定の Web サイトから「お問い合わせ」情報を抽出するために必要なスクリーンスクレイパーの推奨事項を探しています。

良い(優先無料の)スクリーンスカーパーを入手できるアイデアはありますか?

4

1 に答える 1

4

自分で書きましょう -- 難しいことではありません。プログラミングに慣れていない場合、またはプログラミング言語を選択できない場合は、スクレイピングをうまく行うためのライブラリ サポートである Python を使用してください。

問題に対処する方法としては、正規表現を使用する 2 つの一般的な手法があり、アドホックスクリーン スクレイピングに最適です。対象の Web サイトが適切に構造化されている場合 (その場しのぎではない)、DOMを操作できるフレームワークを使用します。

ナビゲーションと抽出

これらは、スパイダーを作成する 2 つのフェーズです。スパイダーは Web サイトをナビゲートしてさまざまなページにアクセスする必要があり、関心のある情報を抽出する必要があります。これらのフェーズは両方とも、DOM または RE のいずれかによって駆動できます。

ps、あなたの名前は .NET を示しているので、私は C-Sharp でスクレイパーを作成したことに言及しておく必要があります。

于 2010-01-17T15:46:15.410 に答える