ハイブ クエリから複数の HDFS ディレクトリにいくつかの区切りファイルを生成しています。次のステップとして、標準の非分散アルゴリズムを適用するために、ファイルを単一の pandas データフレームに読み込みたいと思います。
あるレベルでは、「hadoop dfs -copyTolocal」に続いてローカル ファイル システム操作を使用する実行可能なソリューションは簡単ですが、標準的な方法に組み込むデータをロードする特にエレガントな方法を探しています。
理想的なソリューションの特徴:
- ローカル コピーを作成する必要はありません (クリーンアップが好きな人はいますか?)
- システムコールの最小数
- 数行の Python コード