スキーマが常に進化している入力として、さまざまな JSON/XML を取得しています。パフォーマンスを向上させるために、Hadoop/Hive 環境で ORC または Parquet 形式を使用してそれらを処理したいと考えています。
私は同じ目的を達成するための一般的なスタイルを以下に知っています:JSONSerdeまたはXMLSerdeライブラリを使用し、最初にこれらのserdeを使用してハイブテーブルを作成します。後で select * fields クエリが各 xml/json ハイブ テーブルで起動され、orc として保存するか、parquet として別のテーブルに保存します。成功したら、これらの Serde テーブルと XML/JSON データを削除できます。
同じことを行う別の良い方法は何ですか?