hadoop - Hadoop ストリーミング: マップごとに単一ファイルまたは複数ファイル。分割しないでください

Question

C++ ライブラリで処理する必要がある zip ファイルが多数あります。そのため、C++ を使用して Hadoop ストリーミングプログラムを作成しています。プログラムは zip ファイルを読み取り、解凍し、抽出されたデータを処理します。私の問題は次のとおりです。

私のマッパーは、正確に 1 つのファイルのコンテンツを取得できません。通常、2.4 ファイルまたは 3.2 ファイルのようなものを取得します。Hadoop はいくつかのファイルをマッパーに送信しますが、ファイルの少なくとも 1 つが不完全です。zip ファイルをこのように処理できないことはご存知でしょう。マップごとに 1 つのファイルを取得できますか? データの局所性を利用したいので、ファイルリストを入力として使用してプログラムから読み取りたくありません。
Hadoop が zip ファイルを分割しない場合、マップごとに複数の zip ファイルのコンテンツを受け入れることができます。2.3 ファイルのようなものではなく、正確に 1、2、3 ファイルを意味します。私のプログラムは、解凍されたデータを処理するために約800MBのデータファイルをロードする必要があるため、実際にはさらに良くなります。これはできますか？

score 3 · Accepted Answer

ここで解決策を見つけることができます：

私がお勧めする最も簡単な方法はmapred.min.split.size、ファイルが分割されないように大きな値を設定することです。

これが機能しない場合InputFormatは、それほど難しくない実装を行う必要があります。手順はhttp://developer.yahoo.com/hadoop/tutorial/module5.html#fileformatで確認できます。

score -1 · Accepted Answer

最小分割サイズに依存するのではなく、ファイルを Gzip することをお勧めします。

gzip を使用してファイルを圧縮する方法があります

Linux を使用している場合は、抽出したデータを次のように圧縮します。

gzip -r /path/to/data

これで、このデータを Hadoop ストリーミングジョブの入力として渡しました。

2 に答える 2