私はリンク伝播に関するインテリジェンスの構築に取り組んでおり、正確な URL アドレスからの逆引きが必要な多くの短い URL サービスを扱う必要があるため、同じ URL の複数の近似バージョンを解決できる必要があります。
たとえば、 http://www.example.com?ref=affil&hl=en&ct= 0 のような URL です。
もちろん、特定の状況で GET パラメータを変更すると、特に問題の GET パラメータがプロファイルまたはコンテンツ ID を参照している場合は、まったく別のページを参照できます。
しかし、ページをすばやく解析すると、ページが互いにどの程度似ているかがすぐにわかります。少しの機械学習を使用すると、特定のサイトに対して返されるページのコンテンツに影響を与えない GET パラメータがすぐに明らかになる可能性があります。
URL を送信して非常に類似した URL のリストを取得するサービスは、Google や Yahoo (または Twitter) などによってのみ提供されると想定していますが、この機能を提供していないようです。他のサービスを見つけました。
前述の方法でほぼ同一の URL のグループをクラスター化するサービスを知っている場合は、お知らせください。
私の懸賞金は抱擁です。