HadoopのMap/Reduceフレームワークに関連するデータの局所性を理解しようとしていますが、特に、どのコンポーネントがデータの局所性を処理するかを理解しようとしています(つまり、入力形式ですか?)
Yahooの開発者ネットワークページには、「Hadoopフレームワークは、分散ファイルシステムからの知識を使用して、データ/レコードの場所の近くでこれらのプロセスをスケジュールします」と記載されています。これは、HDFS入力形式が名前ノードにクエリを実行して、目的のデータが含まれているノードを判別し、可能であればそれらのノードでマップタスクを開始することを意味しているようです。どのリージョンが特定のレコードを提供しているかを判別するためにクエリを実行することで、HBaseでも同様のアプローチをとることができると想像できます。
開発者が独自の入力形式を作成する場合、データの局所性を実装する責任がありますか?