特定の Web サイトから「お問い合わせ」情報を抽出するために必要なスクリーンスクレイパーの推奨事項を探しています。
良い(優先無料の)スクリーンスカーパーを入手できるアイデアはありますか?
特定の Web サイトから「お問い合わせ」情報を抽出するために必要なスクリーンスクレイパーの推奨事項を探しています。
良い(優先無料の)スクリーンスカーパーを入手できるアイデアはありますか?
自分で書きましょう -- 難しいことではありません。プログラミングに慣れていない場合、またはプログラミング言語を選択できない場合は、スクレイピングをうまく行うためのライブラリ サポートである Python を使用してください。
問題に対処する方法としては、正規表現を使用する 2 つの一般的な手法があり、アドホックスクリーン スクレイピングに最適です。対象の Web サイトが適切に構造化されている場合 (その場しのぎではない)、DOMを操作できるフレームワークを使用します。
ナビゲーションと抽出
これらは、スパイダーを作成する 2 つのフェーズです。スパイダーは Web サイトをナビゲートしてさまざまなページにアクセスする必要があり、関心のある情報を抽出する必要があります。これらのフェーズは両方とも、DOM または RE のいずれかによって駆動できます。
ps、あなたの名前は .NET を示しているので、私は C-Sharp でスクレイパーを作成したことに言及しておく必要があります。