4

私はs3から圧縮されていないthriftファイルをsparkに読み取らせようとしています。これまでのところ、機能していません。

  • データは圧縮されていないthriftファイルとしてs3にロードされます。ソースは AWS Kinesis Firehose です。
  • ファイルを問題なく逆シリアル化するツールを持っているので、thrift のシリアル化/逆シリアル化が機能することはわかっています。
  • スパークでは、newAPIHadoopFileを使用しています
  • エレファントバードのLzoThriftBlockInputFormatを使用して、lzo圧縮されたthriftファイルを正常に読み取ることができます
  • 圧縮されていないthriftファイルを読み取るためにどのInputFormatを使用すればよいかわかりません。

そこにあるInputFormatsのいずれかでそれは可能ですか? 自分で実装する必要がありますか?

4

1 に答える 1