2

検索ボットについては、次のような設計に取り組んでいます:
* URI を比較し、
* どの URI が実際に同じページであるかを判断する

リダイレクトとエイリアスの処理:
ケース 1: リダイレクト
ケース 2: エイリアス 例: www
ケース 3: URL パラメータ 例: sukshma.net/node#parameter

従うことができる 2 つのアプローチがあります。1 つのアプローチは、ケース 1 をキャッチするためにリダイレクトを明示的にチェックすることです。もう 1 つのアプローチは、www などのエイリアスを「ハード コード」することで、ケース #2 で機能します。2 番目のアプローチ (ハードコード) のエイリアスは脆弱です。HTTP の URL 仕様では、エイリアスとしての www の使用について言及されていません (RFC 2616)

また、Canonical Meta-tag (HTTP/HTML) を使用するつもりですが、それを正しく理解していれば、すべての場合にタグがあるとは限りません。

あなた自身の経験を共有してください。検索ボットで重複を検出するためのリファレンス ホワイト ペーパーの実装を知っていますか?

4

2 に答える 2

0

独自の Web クローラーを構築するのは大変な作業です。JSpiderOpenWebSpiderなどすでに利用可能なオープン ソース スパイダーの一部を確認することを検討してください。

于 2009-12-11T03:54:45.453 に答える
0

最初のケースは、 HTTP ステータス コードを確認するだけで解決できます。

2番目と3番目のケースについては、ウィキペディアが非常によく説明しています: URL Normalization / Canonicalization

于 2010-01-15T01:08:23.240 に答える