0

Nutch 1.17 を使用して、100 万を超える Web サイトをクロールしています。これには次のことを実行する必要があります。

  1. クローラーをディープ クローラーとして 1 回実行し、指定された (100 万) ドメインから最大数の URL をフェッチする必要があります。初めて、最大 48 時間実行できます。
  2. この後、5 ~ 6 時間後に同じ 100 万のドメインでクローラーを実行し、それらのドメインで新しい URL のみを選択します。
  3. ジョブの完了後、Solr で URL のインデックスを作成します
  4. 後で生の HTML を保存する必要がないため、ストレージ (HDFS) を節約し、生データのみを削除し、各ページのメタデータを維持して、次のジョブでページを再度取得することを避ける必要があります (スケジュールされた時間の前に)。 )。

他の処理や事後分析はありません。ここで、中規模 (最大 30 台のマシン) の Hadoop クラスターを使用する選択肢があります。各マシンには 16 GB の RAM、12 コア、および 2 TB のストレージがあります。Solr マシンも同じスペースです。さて、上記を維持するために、私は以下に興味があります:

a. How to achieve above document crawl rate i.e., how many machines are enough ? 
b. Should I need to add more machines or is there any better solution ?
c. Is it possible to remove raw data from Nutch and keep metadata only ?
d. Is there any best strategy to achieve the above objectives.
4

1 に答える 1