1

私はリンク伝播に関するインテリジェンスの構築に取り組んでおり、正確な URL アドレスからの逆引きが必要な多くの短い URL サービスを扱う必要があるため、同じ URL の複数の近似バージョンを解決できる必要があります。

たとえば、 http://www.example.com?ref=affil&hl=en&ct= 0 のような URL です。

もちろん、特定の状況で GET パラメータを変更すると、特に問題の GET パラメータがプロファイルまたはコンテンツ ID を参照している場合は、まったく別のページを参照できます。

しかし、ページをすばやく解析すると、ページが互いにどの程度似ているかがすぐにわかります。少しの機械学習を使用すると、特定のサイトに対して返されるページのコンテンツに影響を与えない GET パラメータがすぐに明らかになる可能性があります。

URL を送信して非常に類似した URL のリストを取得するサービスは、Google や Yahoo (または Twitter) などによってのみ提供されると想定していますが、この機能を提供していないようです。他のサービスを見つけました。

前述の方法でほぼ同一の URL のグループをクラスター化するサービスを知っている場合は、お知らせください。

私の懸賞金は抱擁です。

4

2 に答える 2

0

すべてのURLは、インターネット上のデータの場所の「アドレス」に似ています。URLの「ホスト」部分(この例では「www.example.com」)は、Webサーバー、または世界のどこかにあるWebサーバーのセットです。URLを「アドレス」と考えると、ホストは「国」である可能性があります。

国自体が、そこに入るすべてのメールを追跡する場合があります。する人もいれば、しない人もいます。私はウェブサーバーについて話している!もちろん、実際の国では、受け取ったすべてのメールを記録しているわけではありません。:-)

しかし、その「国」がすべてのメールを追跡しているとしても、そのリストをあなたに送信するためのメカニズムが整っているとは思えません。

自分たちで収穫を行う可能性のある組織については、Googleが最善の策だと思いますが、それでも状況はかなり厳しいものです。ご覧のとおり、Googleは世界中のすべてのウェブサーバー(「国」)の所有者ではないため、そのウェブサーバーにアクセスするすべてのURLを知ることはできません。

しかし、彼らはその逆を行うことができます。遭遇したすべてのページにインデックスを付けることができるため、Web上の公開HTMLページに表示されるすべてのURLについてかなり良いアイデアを得ることができます。もちろん、これには、チャット、SMS、または電子メールでユーザーが相互に送信するURLは含まれません。しかし、それでも、彼らはどのURLが存在するかについてかなり良い考えを得ることができます。

私が言おうとしているのは、あなたが探しているものは実際には存在しないということだと思います。単一のWebサイトへのアクセスに使用されるすべてのURLを取得できる唯一の方法は、そのWebサイトの所有者になることです。

すみません、メイト。

于 2009-04-28T06:12:49.307 に答える
0

It sounds like you need to create some sort of discrete similarity rank between pages. This could be done by finding the number of similar words between two pages and normalizing the value to a bounded range then mapping certain portions of the range to different similarity ranks.

また、各ペアについて、どの GET パラメータが共通しているか、またはどの程度近いかを比較することも知っておく必要があります。この情報は、各インスタンスを定義する属性になります (上記のランクと共に保存されます)。数百組の比較を蓄積した後、機能サブセットの選択を行って、2 つのページがどの程度類似しているかを最もよく識別する GET パラメーターを識別することができます。

もちろん、このデータセットには大量のノイズが含まれている可能性が高いため、有用なものがまったく見つからない可能性があります。

このアプローチに興味がある場合は、Infogain と機能サブセットの選択全般を調べる必要があります。これは私の教授の講義ノートへのリンクで、役に立つかもしれません。http://stuff.ttoy.net/cs591o/FSS.html

于 2009-04-30T16:44:23.577 に答える