9

Apache Pigは PiggyBank を使用して Hadoop シーケンス ファイルからデータをロードできますSequenceFileLoader

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

Pig から Hadoop シーケンス ファイルへの書き込みを可能にするライブラリもありますか?

4

2 に答える 2

2

そのためには StoreFunc を実装するだけです。

これは現在可能ですが、ロード/ストア インターフェイスの完全な再設計が含まれているため、Pig 0.7 が登場するとかなり簡単になります。

「Hadoop 拡張パック」Twitterは、 githubでオープンソース化されたソースをオープンしようとしています。これには、Google プロトコル バッファに基づいてロードおよびストア関数を生成するためのコードが含まれています (同じ入力/出力形式に基づいて構築されています。シーケンス ファイル用のものは既にあります。明らかに)。些細なことを行う方法の例が必要な場合は、チェックしてください。ただし、かなり簡単なはずです。

于 2010-03-12T12:24:13.437 に答える
2

これは私にとってはうまくいくようでした。https://github.com/kevinweil/elephant-bird/pull/73

于 2012-05-31T22:07:06.097 に答える