2

スキーマが常に進化している入力として、さまざまな JSON/XML を取得しています。パフォーマンスを向上させるために、Hadoop/Hive 環境で ORC または Parquet 形式を使用してそれらを処理したいと考えています。

私は同じ目的を達成するための一般的なスタイルを以下に知っています:JSONSerdeまたはXMLSerdeライブラリを使用し、最初にこれらのserdeを使用してハイブテーブルを作成します。後で select * fields クエリが各 xml/json ハイブ テーブルで起動され、orc として保存するか、parquet として別のテーブルに保存します。成功したら、これらの Serde テーブルと XML/JSON データを削除できます。

同じことを行う別の良い方法は何ですか?

4

1 に答える 1

0

ご提案のとおり、これは JSON/XML データを parquet 形式にオフライン変換する最も一般的な方法です。ただし、別の方法として、JSON/XML を解析し、JSON レコードごとに Parquet グループを作成することもできます。基本的に:

JSON ファイルを開く 個々のレコードを読み取る 別のファイルを開く #2 で読み取ったレコードから Parquet グループを作成する #3 で作成したファイルに寄木細工のグループを書き込む ファイル内のすべてのレコードに対してこれを行う 両方のファイルを閉じます。

私たちは、私たちのユース ケースの 1 つにそのようなコンバーターを思い付きました。

于 2016-03-29T22:35:52.057 に答える