Hadoop や Spark などのクラスター コンピューティング インフラストラクチャをセットアップせずに、適度なサイズの Parquet データセットをメモリ内の Pandas DataFrame に読み込む方法は? これは、ラップトップで単純な Python スクリプトを使用してインメモリで読み取りたいと思う適度な量のデータにすぎません。データは HDFS に存在しません。ローカル ファイル システムまたは S3 にある可能性があります。Hadoop、Hive、Spark などの他のサービスを起動して構成したくありません。
Blaze/Odo ならこれが可能になると思いました。Odo のドキュメントでは Parquet について言及されていますが、例はすべて外部の Hive ランタイムを経由しているようです。