カスタム Writable Values オブジェクトの SequenceFile があります。このオブジェクトは基本的に、Pig の複雑なバッグ データ型と同等です。
カスタム関数を作成して Hadoop Writable オブジェクトを bag データ型に変換し、それを pig スクリプトを使用して処理する便利な方法はありますか?
カスタム Writable Values オブジェクトの SequenceFile があります。このオブジェクトは基本的に、Pig の複雑なバッグ データ型と同等です。
カスタム関数を作成して Hadoop Writable オブジェクトを bag データ型に変換し、それを pig スクリプトを使用して処理する便利な方法はありますか?
1 つのオプションは、エレファント バードを見ることです。この github ページを README セクションまでスクロールすると、Pig に関するセクションがあります。
豚
- タプルを書き込み可能に、またはその逆に変換するためのコンバーター インターフェイスが含まれています
私はそれを使用したことがなく、自分でいくつかのコードを実装する必要があると思います (おそらく、com.twitter.elephantbird.pig.util.WritableLoadCaster
抽象クラスの拡張と、SequencedFileLoader
ロード キャスターの実装を使用してシーケンス ファイルをロードするためのコードです)。