hadoop - Hadoop ストリーミングの下位互換性

Question

AFAK、Hadoop Streaming はテキスト入力のみをサポートします。つまり、データは行単位で編成されます。しかし、下位互換性が必要な場合は、マッパーコードが乱雑になり、c++ で記述された同じマッパープログラムで異なるバージョンのログ行がサポートされます。

以前は avro や protobuf を検討していましたが、ストリーミングモードではサポートされていないようですが、本当ですか?

他に解決策はありますか？

score 2 · Accepted Answer

他の入出力形式も、Hadoop ストリーミングと共に使用できます。

Hadoop ストリーミングのAvroサポートが追加されました。AVRO-808 & AVRO-830を参照してください。また、このスレッドが役立つ場合があります。

ProtoBuf の InputFormat クラスと OutputFormat クラスが見つかりませんでした。そのため、カスタム作成する必要があります。

score 2 · Accepted Answer

参考までに、Hadoop ストリーミングはバイナリ入出力をサポートしています。

-io rawbytesオプションを探します。

SequenceFile を使用できるプロトタイプを作成しました (かなり前のことだと思います)。

ストリームから Java Hadoop *Writables を逆シリアル化する必要があったため、このアイデアを断念しました。また、C# BinaryReader はリトルエンディアンエンコーディングを使用しますが、Java はビッグエンディアンを使用します。そのため、マッパーは本来あるべきより複雑になりました。

とにかく、それは可能です。

hadoop - Hadoop ストリーミングの下位互換性

2 に答える 2

Related

Reference