私は単純な Web クローラーを構築しており、リンクが以前に見られたかどうかに基づいてリンクをフィルター処理しようとしています。問題は、リンクが同じである可能性があることですが、スラッシュ、引数があります。へのメールも除外したいと思います。これを行うための既知の簡単なものはありますか? 私は現在pHpで働いています。
編集:これを見た後、Net_URL2.php を使用して URL を正規化しました: How do I apply URL normalization rules in PHP?