大きな犯罪統計データ セットを分析しようとしています。ファイルは CSV 形式で約 2 GB です。約 20 の列がありますが、私が興味を持っているのはそのサブセット (Crime_Type と Crime_in_Year) だけです。たとえば、犯罪タイプ「強盗」は、2001 年から 2013 年にかけて毎年発生しています。毎年の強盗の発生数をカウントする結果が必要です。
だから私はキーを持つことを考えています.値は2003年に発生したものの合計になります.hadoop/mapreduceのキーとして値のペアを持つことは可能ですか?