python - pyspark でジョブを送信する際に、--files 引数を使用して静的ファイルのアップロードにアクセスするにはどうすればよいですか?

Question

たとえば、次のフォルダーがあります。

/
  - test.py
  - test.yml

ジョブは次のように Spark クラスターに送信されます。

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

で、test.pyアップロードした静的ファイルにアクセスしたい。

with open('test.yml') as test_file:
    logging.info(test_file.read())

しかし、次の例外が発生しました:

IOError: [Errno 2] No such file or directory: 'test.yml'

アップロードしたファイルにアクセスするにはどうすればよいですか?

score 18 · Accepted Answer

SparkContext.addFile(および)を使用して配布されたファイル--filesは、からアクセスできますSparkFiles。次の 2 つの方法があります。

getRootDirectory()- 配布ファイルのルートディレクトリを返す
get(filename)- ファイルへの絶対パスを返します

Dataproc 固有の制限があるかどうかはわかりませんが、次のようなものは問題なく動作するはずです。

from pyspark import SparkFiles

with open(SparkFiles.get('test.yml')) as test_file:
    logging.info(test_file.read())

score 0 · Accepted Answer

ええ、シャグンは正しいです。

基本的に、spark ジョブを spark に送信すると、処理するファイルが各ワーカーにシリアル化されません。あなたはそれを自分でしなければならないでしょう。

通常、HDFS、S3 (Amazon)、またはすべてのワーカーがアクセスできるその他の DFS などの共有ファイルシステムにファイルを配置する必要があります。これを行うとすぐに、spark スクリプトでファイルの宛先を指定すると、spark ジョブは必要に応じて読み取りと処理を行うことができます。

ただし、これを言っても、すべてのワーカーとマスターのファイル構造の同じ宛先にファイルをコピーすることもできます。/opt/spark-job/all-files/Exp、すべてのsparkノードのようにフォルダーを作成rsyncし、それらすべてにファイルを作成してから、sparkスクリプトでファイルを使用できます。しかし、これをしないでください。DFS または S3 は、このアプローチよりもはるかに優れています。

python - pyspark でジョブを送信する際に、--files 引数を使用して静的ファイルのアップロードにアクセスするにはどうすればよいですか?

3 に答える 3

Related

Reference