0

URLのインデックスの作成に取り組んでいます。目的は、ドメイン URL (例: www.nytimes.com) としてキーを持つデータ構造を構築して保存することであり、値はその URL に関連付けられた一連の機能になります。この一連の機能についての提案をお待ちしています。たとえば、www.nytimes.com を次のように保存します。

[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001 など..]

なぜ私はこれを構築しているのですか?最終的な目標は、このインデックスを使用して興味深いことを行うことです。たとえば、このインデックスでクラスタリングを行い、興味深いグループを見つけるなどです。全体の期間にわたって多数の URL によって生成された大量のテキストを持っています。多くの時間:)データは問題ではありません。

どんな種類の提案も大歓迎です。

4

2 に答える 2

0

あなたがすでに提案したことで最初にそれを機能させてください。次に、他の人が提案した機能の追加を開始します。

アイデアは実行されなければ何の価値もありません。

-- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html

于 2010-02-28T01:40:27.853 に答える
0

ここから始めたいと思います: IR に関する Google ホワイト ペーパー

それから、Google で IR に関するホワイト ペーパーも検索してみてはいかがでしょうか。

また、インデックスに追加するいくつかのこと:

  1. ドメインに関連付けられたサブドメイン
  2. ドメインに関連付けられた IP アドレス
  3. 平均ページ速度
  4. Yahoo のドメインへのリンク - 例: link:nytimes.com またはyahoo で検索
  5. ドメインのページ数 - Google の site:nytimes.com
  6. compet.com または Google トレンドのトラフィック番号
  7. ドメインの年齢、登録期間などのwhois情報。

調査する他の場所 - http://www.majesticseo.com/http://www.opensearch.org/Home、およびhttp://www.seomoz.orgそれらはすべて独自のインデックスを持っています

他にもたくさんあると思いますが、うまくいけば、IR が歯車を鳴らしてくれるでしょう :)

于 2010-02-28T02:54:18.043 に答える