ある種のデータベースストレージを備えたPHPを使用して、複数のWebサイトでHTMLの変更を確認したいと思います。MD5合計を使用して変更を確認する以外に、別の方法を知りたいです。
また、変更が検出されたときに、正確に何が変更されたかを知る方法はありますか?
よろしくお願いします!
初めてクロールするときに、そのページの Last-Modified ヘッダーを保存できます。次回クロールするときは、Last-Modified ヘッダーをもう一度確認するだけです。
Web サイトがこのヘッダーをサポートしていない場合は、MD5 を使用できます。
変更の検出は、任意の diff パッケージを使用して行うことができます。たとえばhttp://www.raymondhill.net/finediff/viewdiff-ex.phpの場合