Nutch 1.17 を使用して、100 万を超える Web サイトをクロールしています。これには次のことを実行する必要があります。
- クローラーをディープ クローラーとして 1 回実行し、指定された (100 万) ドメインから最大数の URL をフェッチする必要があります。初めて、最大 48 時間実行できます。
- この後、5 ~ 6 時間後に同じ 100 万のドメインでクローラーを実行し、それらのドメインで新しい URL のみを選択します。
- ジョブの完了後、Solr で URL のインデックスを作成します
- 後で生の HTML を保存する必要がないため、ストレージ (HDFS) を節約し、生データのみを削除し、各ページのメタデータを維持して、次のジョブでページを再度取得することを避ける必要があります (スケジュールされた時間の前に)。 )。
他の処理や事後分析はありません。ここで、中規模 (最大 30 台のマシン) の Hadoop クラスターを使用する選択肢があります。各マシンには 16 GB の RAM、12 コア、および 2 TB のストレージがあります。Solr マシンも同じスペースです。さて、上記を維持するために、私は以下に興味があります:
a. How to achieve above document crawl rate i.e., how many machines are enough ?
b. Should I need to add more machines or is there any better solution ?
c. Is it possible to remove raw data from Nutch and keep metadata only ?
d. Is there any best strategy to achieve the above objectives.