3 つのワーカー ノードを備えた Elastic MapReduce で Nutch を実行しています。私は Nutch 1.4 を使用しており、(ユーザー エージェントを追加した後) 同梱されているデフォルトの構成を使用しています。
ただし、30,000 個のドメインのリストをクロールしているにもかかわらず、解析ステップは 3 つすべてで実行されますが、フェッチ ステップは 1 つのワーカー ノードからのみ実行されます。
3 つのノードすべてからフェッチ ステップを実行するにはどうすればよいですか?
*編集* 問題は、mapred.map.tasks プロパティを Hadoop クラスターのサイズに設定する必要があることでした。これはここに文書化されています