0

solr で検索エンジンを構築し、クローラーとして Nutch を実行します。約 1300 万のドキュメントのインデックスを作成する必要があります。このジョブには 3 つのサーバーがあります。

  1. 4 コア Xeon 3Ghz、20Gb RAM、1.5Tb sata
  2. 2*4 コア Xeon 3Ghz、16Gb RAM、500Gb IDE
  3. 2*4 コア Xeon 3Ghz、16Gb RAM、500Gb IDE

1 台のサーバーをクロールとインデックス作成のマスターとして使用し、他の 2 台を検索用のスレーブとして使用するか、1 台を検索用に使用し、別の 2 台を 2 つのシャードのインデックス作成用に使用できます。どのアーキテクチャを推奨できますか? シャーディングを使用する必要があるか、シャードの量、およびどのサーバーを何に使用する必要がありますか?

4

2 に答える 2

1

両方やってみようと思います。HathiTrustが行ったことを読んでください。私は、1つのマスターと2つのスレーブから始めます。これは、最も単純なアプローチです。また、13mlnのドキュメントしかない場合、負荷はインデックス作成/クロール側にあると思います。しかし、13mlnは1分あたりわずか300ページです。ナッチクローラーがボトルネックになると思います。

于 2010-08-10T20:08:27.560 に答える
0

私は、検索用に2つのサーバーを使用し、インデックス作成用に1つのサーバーを使用する傾向があります。

原則として、インデックス作成のパフォーマンスを犠牲にして、検索を可能な限り高速に保つ必要があります。また、2つの検索サーバーにより、自然な冗長性が得られます。

実際にインデックス作成を行っていない場合は、3番目のサーバーも検索に使用します。(1300万のドキュメントは巨大なインデックスではなく、インデックスを再作成する頻度と比較して、インデックス作成にそれほど時間はかからないはずです)

于 2010-10-12T05:16:27.750 に答える