python - HDFS (Hadoop ファイルシステム) ディレクトリ内のファイルを Pandas データフレームに読み込む

翻译自：https://stackoverflow.com/questions/16598043 2013-05-16T21:47:55.997

9929 次

ハイブクエリから複数の HDFS ディレクトリにいくつかの区切りファイルを生成しています。次のステップとして、標準の非分散アルゴリズムを適用するために、ファイルを単一の pandas データフレームに読み込みたいと思います。

あるレベルでは、「hadoop dfs -copyTolocal」に続いてローカルファイルシステム操作を使用する実行可能なソリューションは簡単ですが、標準的な方法に組み込むデータをロードする特にエレガントな方法を探しています。

理想的なソリューションの特徴:

1 に答える 1