特定のドメインのページが互いにどのようにリンクするかをモデル化できるように、Web サイトのリンク構造をグラフ化しようとしています。ルート ドメインにないサイトへのリンクをグラフ化していないことに注意してください。
明らかに、このグラフはかなりのサイズになる可能性があります。私が実行したい主なクエリの 1 つは、特定の URL に直接リンクしているページの数を数えることです。これをグラフ全体(身震い)に対して実行して、最終的にURLのリストとそのURLへの着信リンクの数を取得したいと思います。
これを行う一般的な方法の 1 つは、ある種のマップ削減によるものであることを知っています - そして、私はまだそのように行くかもしれません - しかし、私はこのレポートを (ほぼ) リアルタイムで表示できるようにする必要がありますが、これは通常マップではありませんフレンドリーを減らします。
私は、neo4j と OrientDb をざっと見てきました。これらは両方とも私が望む関係をモデル化できますが、それらを照会して必要なレポートを生成できるかどうかは明確ではありません。この時点で、私は特定のテクノロジーにコミットしていません。
どんな助けでも大歓迎です。ありがとう、ポール