URLのインデックスの作成に取り組んでいます。目的は、ドメイン URL (例: www.nytimes.com) としてキーを持つデータ構造を構築して保存することであり、値はその URL に関連付けられた一連の機能になります。この一連の機能についての提案をお待ちしています。たとえば、www.nytimes.com を次のように保存します。
[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001 など..]
なぜ私はこれを構築しているのですか?最終的な目標は、このインデックスを使用して興味深いことを行うことです。たとえば、このインデックスでクラスタリングを行い、興味深いグループを見つけるなどです。全体の期間にわたって多数の URL によって生成された大量のテキストを持っています。多くの時間:)データは問題ではありません。
どんな種類の提案も大歓迎です。