サイズが1TBのファイルがあります。そして、ファイル内の4つの列の個別の値を見つける必要があります。たとえば、列A、B、C、D、E、Fなどがある場合。その中で、列Aですべての個別の値を見つけて、HDFSで1つのファイルを作成する必要があります。B、C、Dについても同様です。
注:これは、残りの列ではなく、4つの列に対してのみ実行する必要があります。ファイルには合計300列あります。
このためにMapReduceを作成する必要があります。この問題に対処するための効果的な方法は何でしょうか。あなたの助けに感謝。ありがとう。