非常に大きなテキスト ファイル (サイズが 5 TB など) のデータを処理する必要があります。処理ロジックは、supercsv を使用してデータを解析し、いくつかのチェックを実行します。明らかにサイズが非常に大きいため、並列計算を利用するために Hadoop を使用することを計画しました。マシンに Hadoop をインストールし、マッパーとリデューサーのクラスを書き始めましたが、行き詰まりました。マップにはキーと値のペアが必要なため、このテキスト ファイルを読み取るには、この特定のシナリオでキーと値がどうあるべきかわかりません。誰かがそれを手伝ってくれますか。
私の思考プロセスは次のようなものです(私が正しいかどうか教えてください) 2) これらの supercsvbean ごとに、チェック ロジックを実行します。