次の入力ファイルを持つ MapReduce タスクがあります
File1 value1
File1 value2
File2 value3
File2 value4
Mapper はファイル名にアクセスし、その中の特定の値を検索します。
質問: これらのファイルのディスク アクセスを最適化する最適化手法が必要です。同じファイル ID を同じマッパーに割り当てる必要があります。そのため、一度に 1 つのタスクだけがファイルにアクセスできるようにすることができます。
例: 必須
Mapper 1: File1 (value1), File1 (value2)
Mapper 2: File2 (value3), File2 (value4)
不要:
Mapper 1: File1 (value1), File2 (value3)
Mapper 2: File1 (value2), File2 (value4)
何か助けはありますか?