Webページのコンテンツの変更を検出するためのアプローチ(ライブラリやフレームワークではなく、見つけられないようです)を探しています。Tracking changes to web page contentやホワイト ペーパー ( http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf ) に似た投稿を見てきましたが、良いアプローチを見つけるのに苦労します。
ページのコンテンツの md5 が有用であるとは思えません。ほとんどのページのコンテンツは、リクエストするタイミングによってわずかに変化するためです (たとえば、日付がハードコードされている場合など)。
さらに、どのコンテンツが実際に変更されたかを判断する方法を見つけたいと思います (たとえば、異なると見なされるコンテンツに対して diff を実行するだけで十分ですが、最初にどのコンテンツが異なるかを把握する必要があります)。
http://www.changedetection.com/は、これをしっかりと行っているようです。アプローチ、アイデア、またはリンクをいただければ幸いです。
ありがとう。