protocol-buffers - protobuf のシリアル化されたデータを HDFS に格納するためのベストプラクティス

Question

protobuf でエンコードされたデータを HDFS に格納するための推奨される方法は何ですか。現在、2 つの解決策が考えられます:
a) シーケンスファイル: シリアル化/エンコードされたバイナリデータ、つまり、シーケンスファイルの対応する値の "byte[]" を格納します。

b) Parquet: Parquet は protobuf/Parquet コンバーターを提供します。したがって、これらのコンバーターを使用する場合、まずバイナリデータをオブジェクト表現に逆シリアル化する必要があり、その後、そのオブジェクトを protobuf/Parquet コンバーターに渡して Parquet に格納する必要があると想定しています。そうすることで、ソリューション a) に比べてパフォーマンスコストが高くなると思います。大量の小さな protobuf でエンコードされたデータチャンク (Kafka によって提供されるストリーミングされた車両データ) を処理する必要があるため、パフォーマンスとメモリコストは重要な側面です。

c) 他の代替案はありますか?

要約すると、多くの小さな protobuf でエンコードされたデータチャンク (つまり、車両センサーデータ) を HDFS に保存して、生データをできるだけそのままにしておくソリューションを探しています。ただし、後で Map/Reduce または Spark を使用してデータを処理できるようにする必要があります。

ベスト、トーマス

protocol-buffers - protobuf のシリアル化されたデータを HDFS に格納するためのベスト プラクティス

0 に答える 0

Related

Reference

protocol-buffers - protobuf のシリアル化されたデータを HDFS に格納するためのベストプラクティス