4

ハイブ クエリから複数の HDFS ディレクトリにいくつかの区切りファイルを生成しています。次のステップとして、標準の非分散アルゴリズムを適用するために、ファイルを単一の pandas データフレームに読み込みたいと思います。

あるレベルでは、「hadoop dfs -copyTolocal」に続いてローカル ファイル システム操作を使用する実行可能なソリューションは簡単ですが、標準的な方法に組み込むデータをロードする特にエレガントな方法を探しています。

理想的なソリューションの特徴:

  1. ローカル コピーを作成する必要はありません (クリーンアップが好きな人はいますか?)
  2. システムコールの最小数
  3. 数行の Python コード
4

1 に答える 1