各マップ関数がその入力 (複数の CSV レコードを含むファイル分割) をデータ構造にロードし、行ごとに処理するのではなく、それらを処理するシステムを設計しました。何百万ものレコードを処理するため、複数のマッパーが存在するため、1 つのマッパーは完全に非効率的です。
WordCount の例から、マップ関数が行ごとに読み取られていることがわかります。ほとんどの場合、マップ関数は、受信した分割から各行に対して呼び出されます。このマップへの入力は、一度に 1 行ずつ送信するのではなく、完全な行そのものであるべきだと思います。
Reduce 関数には別のタスクがあります。したがって、マップ機能を微調整して、割り当てられたタスクを実行できると思います。回避策はありますか?