検索ボットについては、次のような設計に取り組んでいます:
* URI を比較し、
* どの URI が実際に同じページであるかを判断する
リダイレクトとエイリアスの処理:
ケース 1: リダイレクト
ケース 2: エイリアス 例: www
ケース 3: URL パラメータ 例: sukshma.net/node#parameter
従うことができる 2 つのアプローチがあります。1 つのアプローチは、ケース 1 をキャッチするためにリダイレクトを明示的にチェックすることです。もう 1 つのアプローチは、www などのエイリアスを「ハード コード」することで、ケース #2 で機能します。2 番目のアプローチ (ハードコード) のエイリアスは脆弱です。HTTP の URL 仕様では、エイリアスとしての www の使用について言及されていません (RFC 2616)
また、Canonical Meta-tag (HTTP/HTML) を使用するつもりですが、それを正しく理解していれば、すべての場合にタグがあるとは限りません。
あなた自身の経験を共有してください。検索ボットで重複を検出するためのリファレンス ホワイト ペーパーの実装を知っていますか?