問題タブ [nutch2]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

27 問題

0 投票する

1 に答える

136 参照

hadoop - ストレージ最適化による Nutch 1.17 Web クローリング

Nutch 1.17 を使用して、100 万を超える Web サイトをクロールしています。これには次のことを実行する必要があります。

クローラーをディープクローラーとして 1 回実行し、指定された (100 万) ドメインから最大数の URL をフェッチする必要があります。初めて、最大 48 時間実行できます。
この後、5 ～ 6 時間後に同じ 100 万のドメインでクローラーを実行し、それらのドメインで新しい URL のみを選択します。
ジョブの完了後、Solr で URL のインデックスを作成します
後で生の HTML を保存する必要がないため、ストレージ (HDFS) を節約し、生データのみを削除し、各ページのメタデータを維持して、次のジョブでページを再度取得することを避ける必要があります (スケジュールされた時間の前に)。）。

他の処理や事後分析はありません。ここで、中規模 (最大 30 台のマシン) の Hadoop クラスターを使用する選択肢があります。各マシンには 16 GB の RAM、12 コア、および 2 TB のストレージがあります。Solr マシンも同じスペースです。さて、上記を維持するために、私は以下に興味があります：

2020-09-25T05:09:12.527

0 投票する

1 に答える

34 参照

nutch - Nutch http.redirect.max それが何を意味するか知っているかもしれません

たとえば、1000 の Web サイトをクロールしています。一部の Web サイトで readdb を実行すると、db_redirect_temp と db_redirect_moved が表示されます。http.redirect.max=10 を設定すると、Web サイトごとにこの値になるか、クロールする Web サイト全体で 10 回のリダイレクトしか処理されません。

nutch nutch2

2020-10-16T10:30:43.937

1 2 3 4 5 6 7 8 9 10

問題タブ [nutch2]

hadoop - ストレージ最適化による Nutch 1.17 Web クローリング

nutch - Nutch http.redirect.max それが何を意味するか知っているかもしれません

Reference