これはhttp://cssfingerprint.com用です
私はウェブサイトの大規模なデータベース(〜1億行)を持っています。これには、メインドメイン(2LDと3LDの両方)とそれらのドメインから取得された特定のURL([ほとんどのブログのように]そこでホストされているか、[Diggのように]そこからのみリンクされているかどうか、およびホストドメインへの参照)の両方が含まれます。
また、Alexaのトップ100万、Bloglinesのトップ1000、Googleのページランク、Technoratiのトップ100、Quantcastのトップ100万のランキングも削っています。ただし、多くのドメインにはランキングがないか、部分的なセットしかありません。また、ほぼすべてのサブドメインURLには、Googleの0〜10ページランク以外のランキングはありません(ランクがないものもあります)。
大量のスパイダリングを必要としない場合は、必要な新しいスクレイピングを追加できます。
以前のユーザーがどのサイトにアクセスしたかについても、かなりの量の情報があります。
私が必要としているのは、訪問者が現在の訪問者の知識なしにそのURLにアクセスした可能性によってこれらのURLを順序付けるアルゴリズムです。(ただし、以前のユーザーに関する集約情報を使用することはできます。)
この質問は、比較的固定された(または少なくとも集計された)アプリオリランキングに関するものです。動的なランキングを取得することを扱う別の質問があります。
リソース(計算と財務の両方)が限られていることを考えると、これらのサイトにアクセスした可能性の高い順にこれらのサイトをランク付けするための最良の方法は何ですか?