apache-spark - pyspark ワーカーからの HDFS / Hadoop API アクセス

翻译自：https://stackoverflow.com/questions/28949944 2015-03-09T19:10:17.630

2770 次

-1

pyspark worker内から hdfs との間でファイルの読み取り/スキャン/書き込みを行う必要があります。

次の API はドライバから実行されるため、適用できないことに注意してください。

sc.textFile()
sc.saveAsParquetFile()

等

追加のサードパーティライブラリ (pyhadoop など) を使用しないことが非常に望ましいでしょう。

1つのオプションは、例えばシェルアウトすることです

 os.system('hdfs dfs -ls %(hdfsPath)s' %locals())

しかし、これを達成するためのよりネイティブなpysparkの方法はありますか?

更新各ワーカーが hdfs から異なるデータを読み取るため、これはデータのブロードキャストの場合ではありません。使用例の 1 つは、各ワーカーでいくつかの大きなバイナリファイルを読み取ることです (これは明らかにブロードキャストの場合ではありません)。もう 1 つのケースは、命令を含む「コマンド」ファイルを読み取ることです。私はこのパターンをネイティブ Hadoop と scala spark でうまく使用しました。

apache-spark - pyspark ワーカーからの HDFS / Hadoop API アクセス

2 に答える 2

Related

Reference