これは非常に一般的なユースケースのようですが、Hadoopで実行するのは非常に困難です(WholeFileRecordReaderクラスで可能です)。DumboまたはPigでそれは可能ですか?DumboまたはPigを使用してファイル全体をマップタスクとして処理する方法を知っている人はいますか?
2 に答える
0
WholeFileRecordReader は、入力ファイルを分割しないことを意味しますか? その場合、mapred.min.split.size を非常に大きな値に定義すると、mapreduce と Pig の両方がそれを受け取ります。
于 2011-08-30T17:47:30.240 に答える
0
Pig のレコードとして 1 つのファイルが必要であると想定しています。そうでない場合は、質問をより具体的にしてください。
ファイル全体を一度にロードする Pig ストレージ ローダーを知りません (標準ディストリビューションまたは piggybank のいずれか)。比較的簡単な独自のPig カスタム ローダーを作成することをお勧めします。
于 2011-08-31T02:04:36.350 に答える