Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
3 スレーブ Hadoop クラスターがあり、1 つの Web サイトでクロールを実行しています。ただし、フェッチを実行しているスレーブは 1 つだけです (他のスレーブはまだ生きています)。1 つのドメインのみがクロールされる場合、これは正常な動作ですか? 他のスレーブにフェッチを強制する方法はありますか?
ありがとう。
Hadoop MR ジョブ設計の一部として、作業をマッパー間で分割する方法を決定します。あなたの場合、nutch はフェッチ プロセスをサイトごとに分割し、その結果、データのフェッチに使用されるマッパーは 1 つだけです。より多くのサイトがあれば、負荷が分割されます。 プロセスの適切な説明は次のとおりです: Nutch は Hadoop クラスターとどのように連携しますか?