何百万もの行 (5 TB+ テーブル) のネストされた JSON からいくつかの値を取得しようとしています。これを行う最も効率的な方法は何ですか?
以下に例を示します。
{"country":"US","page":227,"data":{"ad":{"impressions":{"s":10,"o":10}}}}
上記の JSON から次の値が必要です。
Country Page impressions_s impressions_o
--------- ----- ------------- --------------
US 2 10 10
これは Hive の json_tuple 関数です。これが最適な関数かどうかはわかりません。 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-getjsonobject