python - Parquet ファイルを Pandas DataFrame に読み込む方法は?

翻译自：https://stackoverflow.com/questions/33813815 2015-11-19T20:30:59.860

208732 次

108

Hadoop や Spark などのクラスターコンピューティングインフラストラクチャをセットアップせずに、適度なサイズの Parquet データセットをメモリ内の Pandas DataFrame に読み込む方法は? これは、ラップトップで単純な Python スクリプトを使用してインメモリで読み取りたいと思う適度な量のデータにすぎません。データは HDFS に存在しません。ローカルファイルシステムまたは S3 にある可能性があります。Hadoop、Hive、Spark などの他のサービスを起動して構成したくありません。

Blaze/Odo ならこれが可能になると思いました。Odo のドキュメントでは Parquet について言及されていますが、例はすべて外部の Hive ランタイムを経由しているようです。

python - Parquet ファイルを Pandas DataFrame に読み込む方法は?

7 に答える 7

Related

Reference