http - 検索ボットの URI を比較しますか?

Question

検索ボットについては、次のような設計に取り組んでいます:
* URI を比較し、
* どの URI が実際に同じページであるかを判断する

リダイレクトとエイリアスの処理:
ケース 1: リダイレクト
ケース 2: エイリアス例: www
ケース 3: URL パラメータ例: sukshma.net/node#parameter

従うことができる 2 つのアプローチがあります。1 つのアプローチは、ケース 1 をキャッチするためにリダイレクトを明示的にチェックすることです。もう 1 つのアプローチは、www などのエイリアスを「ハードコード」することで、ケース #2 で機能します。2 番目のアプローチ (ハードコード) のエイリアスは脆弱です。HTTP の URL 仕様では、エイリアスとしての www の使用について言及されていません (RFC 2616)

また、Canonical Meta-tag (HTTP/HTML) を使用するつもりですが、それを正しく理解していれば、すべての場合にタグがあるとは限りません。

あなた自身の経験を共有してください。検索ボットで重複を検出するためのリファレンスホワイトペーパーの実装を知っていますか?

score 0 · Accepted Answer

独自の Web クローラーを構築するのは大変な作業です。JSpider、OpenWebSpiderなど、すでに利用可能なオープンソーススパイダーの一部を確認することを検討してください。

score 0 · Accepted Answer

最初のケースは、 HTTP ステータスコードを確認するだけで解決できます。

2番目と3番目のケースについては、ウィキペディアが非常によく説明しています: URL Normalization / Canonicalization。

http - 検索ボットの URI を比較しますか?

2 に答える 2

Related

Reference