さまざまな地方自治体のウェブサイトから公開データを取得したいと考えています。このデータは標準形式(XML、RSSなど)で提供されていないため、HTMLから取得する必要があります。このデータをスクレイプして、後で参照できるようにデータベースに保存する必要があります。理想的には、スクレイピングルーチンは定期的に実行され、新しいレコードのみがデータベースに保存されます。これらの各Webサイトで、古いレコードから新しいレコードを簡単に検出する方法があるはずです。
私の大きな質問は、これを達成するための最良の方法は何ですか?YQLを使う人もいると聞きました。また、プログラミング言語によっては、HTMLデータの解析も簡単になることも知っています。私はいくつかの異なる言語の知識を持つ開発者であり、これを開発するための適切な言語と方法を選択して、保守が容易になるようにしたいと考えています。Webサイトが将来変更されると、スクレイピングルーチン/コード/ロジックを更新する必要があるため、これがかなり簡単であることが重要です。
助言がありますか?