NetCDF ファイルに格納された一連のデータから始めました。そこから、いくつかの Java コードを作成して、NetCDF ファイルからシーケンス ファイルを作成しました。コードの本来の意図についてはあまり知りませんが、シーケンス ファイル自体については少し知ることができました。最終的に、これらのシーケンス ファイルを使用して Hive 内にテーブルを作成しようとしていますが、現時点では実行できないようです。
シーケンス ファイル内のキーと値は、WritableComparable を実装するオブジェクトとして格納されることがわかっています。また、シーケンス ファイル内のすべてのデータを反復処理する Java コードを作成することもできます。
では、これらのシーケンス ファイルのオブジェクト内のデータを実際に Hive に適切に読み取らせるには何が必要でしょうか?
ありがとうございます!
更新:問題が発生している場所を正確に説明するのが非常に難しい理由は、必ずしもエラーが発生しているわけではないためです。Hive は単にシーケンス ファイルを正しく読み取っていないだけです。シーケンス ファイルで Hadoop -text コマンドを実行すると、次のようなオブジェクトのリストが表示されます。
NetCDFCompositeKey@263c7e3f 、 NetCDFRecordWritable@4d846db5
データはそれらのオブジェクト自体の中にあります。したがって、現在@Tariqの助けを借りて、これらのオブジェクトを実際に読み取るために必要なことは、キーを読み取るカスタムInputFormatと、オブジェクトをシリアル化および逆シリアル化するカスタムSerDeを作成することだと思いますか?