0

友人、私は Java でマルチスレッド Web クローラーを実装しました。より効率的にするために、分散アーキテクチャ、つまり 3 台のマシンに変換したいと考えています。私が検索した限りでは、マスター/スレーブ アーキテクチャが最適です。どのアーキテクチャが最適で、Java でどのように実装できるかについて、誰かが洞察を提供できますか?

4

1 に答える 1

0

クロール対象の各ドメインのハッシュコードを計算し、このハッシュを使用してそのドメインをクロールするノードを決定できます。そうすれば、すべてのノードが多くの相互作用なしで並行して機能することができます。

また、クロールが完了した後、または定期的にクロールされた結果をマージするためのコードも必要です。おそらく、生成されたアーカイブをノードからコピーし、中央の場所で処理する方がよいでしょう。

クロールは CPU やメモリをあまり消費しないため、仮想マシンのクラウドは適切な展開プラットフォームのように見えます。

于 2013-02-26T06:14:48.757 に答える