java - Hadoop で mapreduce を使用して大きなファイルを読み取る

Question

FTP サーバーからファイルを読み取ってに書き込むコードがありますHDFS。入力のプロパティをとしてInputFormatReader設定するカスタマイズを実装しましたが、これにより次のエラーが発生します。isSplitablefalse

INFO mapred.MapTask: Record too large for in-memory buffer

データの読み取りに使用するコードは

Path file = fileSplit.getPath();
                FileSystem fs = file.getFileSystem(conf);
                FSDataInputStream in = null;
                try {
                    in = fs.open(file);


                    IOUtils.readFully(in, contents, 0, contents.length);

                    value.set(contents, 0, contents.length);

                }

java heap space error入力ファイルを分割せずに回避する方法はありますか? またはisSplitable true、ファイルを読み取るにはどうすればよいですか?

score 2 · Accepted Answer

私が正しければ、ファイル全体をメモリにロードします。Hadoopとは関係ありません-Javaでそれを行うことはできず、十分なメモリがあることを確認してください。
いくつかの合理的なチャンクを定義し、それを「レコード」にすることをお勧めします

score 1 · Accepted Answer

Map 関数が実行されている間、hadoop は MapOutputBuffer と呼ばれるメモリ内バッファーに出力レコードを収集します。

このメモリー内バッファーの合計サイズは io.sort.mb プロパティによって設定され、デフォルトは 100 MB です。

mapred-site.xml でこのプロパティ値を増やしてみてください

java - Hadoop で mapreduce を使用して大きなファイルを読み取る

2 に答える 2

Related

Reference