apache-spark - Spark でより効率的に Parquet ファイルを読み込む方法 (pySpark v1.2.0)

Question

高次元の寄木細工のファイルを読み込んでいますが、数列しか必要ありません。私の現在のコードは次のようになります。

dat = sqc.parquetFile(path) \
          .filter(lambda r: len(r.a)>0) \
          .map(lambda r: (r.a, r.b, r.c))

何が起こっているかについての私のメンタルモデルは、すべてのデータをロードしてから、不要な列を捨てているというものです。私は明らかに、それらのコラムを読まないことを望んでおり、寄木細工について理解していることから、それは可能であると思われます。

したがって、2 つの質問があります。

score 5 · Accepted Answer

何かのようなもの

dat.select("a", "b", "c").filter(lambda r: len(r.a)>0)

または、Spark SQL を使用できます。

dat.regiserTempTable("dat")
sqc.sql("select a, b, c from dat where length(a) > 0")

score 0 · Accepted Answer

はい、ディスクから選択されたフィールドのみになります。

" すべてのデータファイルを開きますが、その列の値を含む各ファイルの部分のみを読み取ります。列の値は連続して格納されるため、1 つの列内の値を処理するために必要な I/O が最小限に抑えられます。"

このドキュメントはインパラ用です。読み取りロジックはスパークでも同じだと思いますhttp://www.cloudera.com/documentation/archive/impala/2-x/2-1-x/topics/impala_parquet.html#parquet_data_files_unique_1

3 に答える 3