data-analysis - URL のインデックスを作成します。どの機能を含める必要がありますか?

Question

URLのインデックスの作成に取り組んでいます。目的は、ドメイン URL (例: www.nytimes.com) としてキーを持つデータ構造を構築して保存することであり、値はその URL に関連付けられた一連の機能になります。この一連の機能についての提案をお待ちしています。たとえば、www.nytimes.com を次のように保存します。

[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001 など..]

なぜ私はこれを構築しているのですか？最終的な目標は、このインデックスを使用して興味深いことを行うことです。たとえば、このインデックスでクラスタリングを行い、興味深いグループを見つけるなどです。全体の期間にわたって多数の URL によって生成された大量のテキストを持っています。多くの時間:)データは問題ではありません。

どんな種類の提案も大歓迎です。

score 0 · Accepted Answer

あなたがすでに提案したことで最初にそれを機能させてください。次に、他の人が提案した機能の追加を開始します。

アイデアは実行されなければ何の価値もありません。

-- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html

score 0 · Accepted Answer

ここから始めたいと思います: IR に関する Google ホワイトペーパー

それから、Google で IR に関するホワイトペーパーも検索してみてはいかがでしょうか。

また、インデックスに追加するいくつかのこと:

ドメインに関連付けられたサブドメイン
ドメインに関連付けられた IP アドレス
平均ページ速度
Yahoo のドメインへのリンク - 例: link:nytimes.com またはyahoo で検索
ドメインのページ数 - Google の site:nytimes.com
compet.com または Google トレンドのトラフィック番号
ドメインの年齢、登録期間などのwhois情報。

調査する他の場所 - http://www.majesticseo.com/、http://www.opensearch.org/Home、およびhttp://www.seomoz.orgそれらはすべて独自のインデックスを持っています

他にもたくさんあると思いますが、うまくいけば、IR が歯車を鳴らしてくれるでしょう :)

data-analysis - URL のインデックスを作成します。どの機能を含める必要がありますか?

2 に答える 2

Related

Reference