apache-spark - スキーマ進化 (SCD) JSON/XML を ORC/Parquet 形式に変換する

Question

スキーマが常に進化している入力として、さまざまな JSON/XML を取得しています。パフォーマンスを向上させるために、Hadoop/Hive 環境で ORC または Parquet 形式を使用してそれらを処理したいと考えています。

私は同じ目的を達成するための一般的なスタイルを以下に知っています:JSONSerdeまたはXMLSerdeライブラリを使用し、最初にこれらのserdeを使用してハイブテーブルを作成します。後で select * fields クエリが各 xml/json ハイブテーブルで起動され、orc として保存するか、parquet として別のテーブルに保存します。成功したら、これらの Serde テーブルと XML/JSON データを削除できます。

同じことを行う別の良い方法は何ですか?

score 0 · Accepted Answer

ご提案のとおり、これは JSON/XML データを parquet 形式にオフライン変換する最も一般的な方法です。ただし、別の方法として、JSON/XML を解析し、JSON レコードごとに Parquet グループを作成することもできます。基本的に：

JSON ファイルを開く個々のレコードを読み取る別のファイルを開く #2 で読み取ったレコードから Parquet グループを作成する #3 で作成したファイルに寄木細工のグループを書き込むファイル内のすべてのレコードに対してこれを行う両方のファイルを閉じます。

私たちは、私たちのユースケースの 1 つにそのようなコンバーターを思い付きました。

apache-spark - スキーマ進化 (SCD) JSON/XML を ORC/Parquet 形式に変換する

1 に答える 1

Related

Reference