問題タブ [nutch2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
136 参照

hadoop - ストレージ最適化による Nutch 1.17 Web クローリング

Nutch 1.17 を使用して、100 万を超える Web サイトをクロールしています。これには次のことを実行する必要があります。

  1. クローラーをディープ クローラーとして 1 回実行し、指定された (100 万) ドメインから最大数の URL をフェッチする必要があります。初めて、最大 48 時間実行できます。
  2. この後、5 ~ 6 時間後に同じ 100 万のドメインでクローラーを実行し、それらのドメインで新しい URL のみを選択します。
  3. ジョブの完了後、Solr で URL のインデックスを作成します
  4. 後で生の HTML を保存する必要がないため、ストレージ (HDFS) を節約し、生データのみを削除し、各ページのメタデータを維持して、次のジョブでページを再度取得することを避ける必要があります (スケジュールされた時間の前に)。 )。

他の処理や事後分析はありません。ここで、中規模 (最大 30 台のマシン) の Hadoop クラスターを使用する選択肢があります。各マシンには 16 GB の RAM、12 コア、および 2 TB のストレージがあります。Solr マシンも同じスペースです。さて、上記を維持するために、私は以下に興味があります:

0 投票する
1 に答える
34 参照

nutch - Nutch http.redirect.max それが何を意味するか知っているかもしれません

たとえば、1000 の Web サイトをクロールしています。一部の Web サイトで readdb を実行すると、db_redirect_temp と db_redirect_moved が表示されます。http.redirect.max=10 を設定すると、Web サイトごとにこの値になるか、クロールする Web サイト全体で 10 回のリダイレクトしか処理されません。