10

寄木細工のデータを読んでいると、ドライバー側のすべてのディレクトリがリストされていることがわかります

Listing s3://xxxx/defloc/warehouse/products_parquet_151/month=2016-01 on driver
Listing s3://xxxx/defloc/warehouse/products_parquet_151/month=2014-12 on driver

where 句で month=2014-12 を指定しました。spark sql とデータ フレーム API を使用してみましたが、どちらもパーティションをプルーニングしていないようです。

データフレーム API の使用

df.filter("month='2014-12'").show()

Spark SQL の使用

sqlContext.sql("select name, price from products_parquet_151 where month = '2014-12'")

バージョン1.5.1、1.6.1、および2.0.0で上記を試しました

4

2 に答える 2