多くの Web サイトからデータを取得する必要があるクローラーを作成しています。問題は、すべての Web サイトの構造が異なることです。(多くの) 異なる Web サイトから (正しく) データをダウンロードするクローラーを簡単に作成するにはどうすればよいですか? Web サイトの構造が変わる場合、クローラーを書き直す必要がありますか、それとも他の方法はありますか?
自動 Web クローラー (多くの Web サイトはさまざまな構造に関与しています) によってマイニングされるデータの品質を向上させるために使用できる、論理的で実装されたツールは何ですか?
ありがとう!