階層化されたディレクトリがあり、各ディレクトリには多くのファイルがあり、各テキスト ファイルには多くの URL 文字列があります。Hadoop のすべてのファイルのすべての URL をバランスよくダウンロードしたいと考えています。
たとえば、1+5 ノードの Hadoop クラスターと 5 つの URL がある場合、入力として 5-URL-in-1 ファイルまたは 1-URL-per-file (次に 5 ファイルを取得) を入力として使用すると、よりバランスが取れます。 ?
Hadoop はデフォルトで入力セットを 64M ブロックとして分割し、1 つのノードのみで実行するように設定していると思います。5 つのスレーブすべてを実行することはできません。
あなたの答えに感謝します!