2

カスタム Writable Values オブジェクトの SequenceFile があります。このオブジェクトは基本的に、Pig の複雑なバッグ データ型と同等です。

カスタム関数を作成して Hadoop Writable オブジェクトを bag データ型に変換し、それを pig スクリプトを使用して処理する便利な方法はありますか?

4

1 に答える 1

3

1 つのオプションは、エレファント バードを見ることです。この github ページを README セクションまでスクロールすると、Pig に関するセクションがあります。

  • タプルを書き込み可能に、またはその逆に変換するためのコンバーター インターフェイスが含まれています

私はそれを使用したことがなく、自分でいくつかのコードを実装する必要があると思います (おそらく、com.twitter.elephantbird.pig.util.WritableLoadCaster抽象クラスの拡張と、SequencedFileLoaderロード キャスターの実装を使用してシーケンス ファイルをロードするためのコードです)。

于 2013-05-14T11:15:48.033 に答える