map reduce の概念はかなりよく理解していますが、Hadoop はまったくの初心者です。
Hadoop チュートリアルのほとんどは、WordCount の例から始まります。そこで、完璧に機能する簡単なワードカウント プログラムを作成しました。しかし、非常に大きな文書の単語数を数えようとしています。(50GB以上)。
Hadoop の専門家への私の質問は、Hadoop は大きなファイルをどのように処理するのでしょうか? ファイルのコピーを各マッパーに転送しますか、それとも自動的にファイルをブロックに分割してそれらのブロックをマッパーに転送しますか?
MapReduce での私の経験のほとんどは、マッパーが一度にドキュメントを処理する CouchDB によるものでしたが、Hadoop について読んだところ、複数の小さなファイルを処理するように設計されているのか、いくつかの大きなファイルを処理するように設計されているのか、あるいはその両方を処理するように設計されているのでしょうか?