google-cloud-dataproc - Dataproc + Datalab + ソースコードリポジトリとの統合

Question

Dataproc、Datalab、ソースコードリポジトリを統合できた人はいますか? 多くの人が知っているように、init アクションを呼び出して datalab をインストールすると、ソースコードリポジトリが作成されません。ユーザーが datalab ノートブックにログインし、Pyspark を介して Dataproc とやり取りし、ノートブックをソースコードリポジトリにチェックインする完全なエンドツーエンドソリューションを実現しようとしています。前に指摘したように、init アクションではこれを行うことができませんでした。また、dataproc と datalab を別のインストールとしてインストールしようとしましたが (今回はソースリポジトリが作成されます)、この datalab ノートブックで spark コードを実行できません。誰かがこれを達成する方法についていくつかの指針を教えてもらえますか? ありとあらゆるものが高く評価されます。

Datalab のコード

from pyspark.sql import HiveContext
hc=HiveContext(sc)
hc.sql("""show databases""").show()
hc.sql("""CREATE EXTERNAL TABLE IF NOT EXISTS INVOICES
      (SubmissionDate DATE, TransactionAmount DOUBLE, TransactionType STRING)
      STORED AS PARQUET
      LOCATION 'gs://my-exercise-project-2019016-ds-team/datasets/invoices'""")
hc.sql("""select * from invoices limit 10""").show()

エラー

Py4JJavaError: An error occurred while calling o55.sql.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2395)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3208)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3240)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:121)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3291)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3259)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:470)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:356)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$or

google-cloud-dataproc - Dataproc + Datalab + ソースコード リポジトリとの統合

Datalab のコード

1 に答える 1

Related

Reference

google-cloud-dataproc - Dataproc + Datalab + ソースコードリポジトリとの統合