KitSDK DatasetKeyInputFormatを使用する Hadoop map-reduce ジョブがあります。寄木細工のファイルを読み取るように構成されています。
ジョブを実行するたびに、次の例外が発生します。
エラー: java.io.DataInputStream.readFully(DataInputStream.java:197) で java.io.EOFException が java.io.DataInputStream.readFully(DataInputStream.java:169) で parquet.hadoop.ParquetInputSplit.readArray(ParquetInputSplit.java: 304) org.apache.hadoop.io.serializer.WritableSerialization$WritableDeserializer.deserialize(WritableSerialization.java:71) で org.apache.hadoop.io.serializer で parquet.hadoop.ParquetInputSplit.readFields(ParquetInputSplit.java:263) で.WritableSerialization$WritableDeserializer.deserialize(WritableSerialization.java:42) org.apache.hadoop.mapred.MapTask.getSplitDetails(MapTask.java:372) org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:754) ) org.apache.hadoop.mapred.MapTask.run(MapTask.java:341) で org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop .security.UserGroupInformation.doAs(UserGroupInformation.java:1671) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Hive によって作成された map-reduce ジョブによって、同じファイルを正常に読み取ることができます。つまり、正常にクエリできます。
考えられる問題を特定するために、 mapreduce のKiteSDK の例に基づいて map-reduce ジョブを作成しました。しかし、私はまだ同じ例外を受け取ります。
注: AVRO および CSV 形式は適切に機能します。