Web ページが別のページと同じかどうかを検出するのに適した手法には、どのようなものがありますか?
同じように、char-for-char に相当するという意味ではありませんが (簡単です)、ページ上の現在の日付/時刻などを無視するのに十分なほど堅牢です。
たとえば、Yahoo! ニュース記事のページを読み込んで、10分後に別のブラウザで同じページを開く。むき出しの書き換えにより、それらのページにはいくつかの違い (タイムスタンプ、おそらく広告のようなもの、おそらく関連する記事のようなもの) がありますが、人間は 2 つを見て同じであると言うことができます。
URLの正規化を修正(または依存)しようとしているわけではないことに注意してください。つまり、foo.html と foo.html?bar=bang が同じであることがわかります。