python - Pythonコードを使用してHadoopでファイル全体を処理します（できればDumboで）

Question

これは非常に一般的なユースケースのようですが、Hadoopで実行するのは非常に困難です（WholeFileRecordReaderクラスで可能です）。DumboまたはPigでそれは可能ですか？DumboまたはPigを使用してファイル全体をマップタスクとして処理する方法を知っている人はいますか？

score 0 · Accepted Answer

WholeFileRecordReader は、入力ファイルを分割しないことを意味しますか? その場合、mapred.min.split.size を非常に大きな値に定義すると、mapreduce と Pig の両方がそれを受け取ります。

score 0 · Accepted Answer

Pig のレコードとして 1 つのファイルが必要であると想定しています。そうでない場合は、質問をより具体的にしてください。

ファイル全体を一度にロードする Pig ストレージローダーを知りません (標準ディストリビューションまたは piggybank のいずれか)。比較的簡単な独自のPig カスタムローダーを作成することをお勧めします。

2 に答える 2