UDF など、データを RC 形式でパーティション分割して保存できるものがあるかどうか疑問に思っていました。あることは知っていますorg.apache.pig.piggybank.storage.MultiStorage
が、一部の圧縮形式に対してのみ実行します。データを RC 形式で保存したいのですが、MultiStorage が提供するのと同じパーティション化されたストレージ構造を使用します。
ありがとう、イムティアズ
UDF など、データを RC 形式でパーティション分割して保存できるものがあるかどうか疑問に思っていました。あることは知っていますorg.apache.pig.piggybank.storage.MultiStorage
が、一部の圧縮形式に対してのみ実行します。データを RC 形式で保存したいのですが、MultiStorage が提供するのと同じパーティション化されたストレージ構造を使用します。
ありがとう、イムティアズ
piggybank またはその他の代替手段のいずれにも、そのような解決策はありません。私は同様の問題に直面していました。しかし、他の要件のために実装を中止しました。利用可能な唯一の解決策は、MultiStorage udf を拡張して RC ストレージ形式を提供することです。
Twitter は RC ファイル ストレージをオープンソース化しました。そこから助けを得ることができます。 http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java