1

1つのWebサイトのみをクロールするクローラーがあります。しかし、ウェブサイトは千ページを持つことができます。各ページは頂点であり、私はJGraphTそのために使用します。

しかし、私が巨大なWebサイトをクロールすると、StackOverflowErrorしばらくすると時間がかかります。

この場合、どうすれば大量のデータを処理できますか?データベースを使用する必要がありますか?データベースにこの特定の種類のデータ(頂点、エッジなど)を処理するライブラリがありますか?

ありがとう

4

2 に答える 2

2

高性能のNOSQLグラフデータベースであるNeo4jを使用することをお勧めします。

于 2012-11-13T10:19:18.470 に答える
0

あなたはそれが役立つかもしれない以下を見てみることができます:

  1. bigdata®
  2. 巨人
于 2012-11-13T10:25:42.420 に答える