-1

私は非常に基本的な正規化を行おうとしていますが、大部分の URL 正規化は不可能な作業であることに気付きました。

とにかく、異なる検索エンジンは、異なるスキーム、ホストなどで同じ検索結果を返します。収集する必要がある最も基本的な部分は何ですか? parse_url を使用して複数の部分を収集して、URL の重要な部分のみを残すことはできますか?

結果 1: http://dogs.com 結果 2: http://www.dogs.com

さまざまな検索エンジンによって生成される可能性のあるこの種の不一致を考慮する必要はありません

4

1 に答える 1

1

結果 1: http://dogs.com結果 2: http://www.dogs.com

これら 2 つは同じではありません。1 つはメイン ドメインで、もう 1 つはサブドメインです。それらが同じコンテンツを提供するという保証はありません。

あなたが求めていることは基本的に不可能です。URL のどの部分も重要であり、それを変更すると別のページになる可能性があります。

とはいえ、ページの正規化された URL を示す<meta>タグがあります。canonicalその URL だけが (ある程度) 正しいことが保証されています。

また、ページからコンテンツを取得して比較することもできます。しかし、繰り返しますが、保証はありません。

于 2013-07-28T14:13:42.630 に答える