私はs3から圧縮されていないthriftファイルをsparkに読み取らせようとしています。これまでのところ、機能していません。
- データは圧縮されていないthriftファイルとしてs3にロードされます。ソースは AWS Kinesis Firehose です。
- ファイルを問題なく逆シリアル化するツールを持っているので、thrift のシリアル化/逆シリアル化が機能することはわかっています。
- スパークでは、newAPIHadoopFileを使用しています
- エレファントバードのLzoThriftBlockInputFormatを使用して、lzo圧縮されたthriftファイルを正常に読み取ることができます
- 圧縮されていないthriftファイルを読み取るためにどのInputFormatを使用すればよいかわかりません。
そこにあるInputFormatsのいずれかでそれは可能ですか? 自分で実装する必要がありますか?