複数の avro ファイルがあり、各ファイルには STRING が含まれています。各 avro ファイルは 1 つの行です。単一のディレクトリにあるすべての avro ファイルを消費するハイブ テーブルを作成するにはどうすればよいですか。各ファイルには大きな番号が含まれているため、関連付けることができる json の種類のスキーマもありません。schema less と言うのは間違っているかもしれません。しかし、ハイブがこのデータを理解する方法が見つかりません。これは非常に単純かもしれませんが、成功せずにさまざまな方法を試したので迷っています。json スキーマを avro uri として指すテーブルを作成しましたが、ここではそうではありません。より多くのコンテキストファイルについては、crunch api を使用して書き込まれました
final Path outcomesVersionPath = ...
pipeline.write(fruit.keys(), To.avroFile(outcomesVersionPath));
テーブルを作成するがデータを正しく読み取らない次のクエリを試しました
CREATE EXTERNAL TABLE test_table
ROW FORMAT
SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
LOCATION 'hdfs:///somePath/directory_with_Ids'