ウェブサイトからのコンテンツのスクレイピングに関して質問があります。この例で、Amazon や Ebay などの分類されたスタイルのサイトのコンテンツについて話していると想像してみましょう。このコンテンツに関する重要な注意事項は、変更される可能性があり、削除される可能性があるということです。
私の見方では、次の 2 つのオプションがあります。
毎日の完全な新鮮なこすり。空のデータベース スキーマで 1 日を開始し、毎日各サイトを完全に再スクレイピングして、コンテンツを新しいデータベースに挿入します。
インクリメンタル スクレイプ。これにより、昨日スクレイピングされたコンテンツから開始し、サイトを再スクレイピングするときに次のことを行います。
Check existing URL Content is still online and is it the same - Leave in DB Content is not availiable - Delete from DB Content is different - Rescrape content
私の質問は、インクリメンタルスクレイプを実行することの複雑さが実際に価値があるかどうか、これには何か利点がありますか? 毎日新鮮なスクレイプを行うシンプルさがとても気に入っていますが、これは私の最初のスクレイピングプロジェクトであり、このようなシナリオでスクレイピングスペシャリストが何をするかを本当に知りたいです.