scala - spark: schema change -- 存在する場合、列のデータフレームを変換およびフィルター処理します。そうでない場合はしないでください

翻译自：https://stackoverflow.com/questions/39170688 2016-08-26T16:20:23.097

1113 次

私が扱っているデータにはスキーマの変更がありました。古いデータと新しいデータを組み合わせた結果のdataFrameの場合、変換およびフィルタリングしたい列は、古いデータには存在しませんでした。「null」は入力されません。可能な限り、その列を変換してフィルター処理したいと考えています。そのような列のない以前のデータについては、すべての行を保持します。

java.lang.NullPointerException問題は、以前のデータに「ip」列がないため、次のコードの結果がになることです。

val filteredData = sqlContext.sql(
s"SELECT $fieldsString FROM data $filterTerm")
.withColumn("ip",firstIp($"ip"))
.filter("`ip` not in ('30.90.30.90', '70.80.70.80')")
.filter("`ip` not like '10.%'")

上記の「firstIp」関数は、配列から最初の IP アドレスを取得する単純な udf です。によって定義されval firstIp = udf[String, String](_.split(",")(0))ます。スキーマごとにデータを 2 つの部分 ("ip" 列があるものとないもの) に分割したくありません... しかし、データをそのように分割しなくても目的を達成できますか?

scala - spark: schema change -- 存在する場合、列のデータフレームを変換およびフィルター処理します。そうでない場合はしないでください

1 に答える 1

Related

Reference