私は非常に基本的な正規化を行おうとしていますが、大部分の URL 正規化は不可能な作業であることに気付きました。
とにかく、異なる検索エンジンは、異なるスキーム、ホストなどで同じ検索結果を返します。収集する必要がある最も基本的な部分は何ですか? parse_url を使用して複数の部分を収集して、URL の重要な部分のみを残すことはできますか?
結果 1: http://dogs.com 結果 2: http://www.dogs.com
さまざまな検索エンジンによって生成される可能性のあるこの種の不一致を考慮する必要はありません