2

Dataproc、Datalab、ソースコード リポジトリを統合できた人はいますか? 多くの人が知っているように、init アクションを呼び出して datalab をインストールすると、ソースコード リポジトリが作成されません。ユーザーが datalab ノートブックにログインし、Pyspark を介して Dataproc とやり取りし、ノートブックをソースコード リポジトリにチェックインする完全なエンドツーエンド ソリューションを実現しようとしています。前に指摘したように、init アクションではこれを行うことができませんでした。また、dataproc と datalab を別のインストールとしてインストールしようとしましたが (今回はソース リポジトリが作成されます)、この datalab ノートブックで spark コードを実行できません。誰かがこれを達成する方法についていくつかの指針を教えてもらえますか? ありとあらゆるものが高く評価されます。

Datalab のコード

from pyspark.sql import HiveContext
hc=HiveContext(sc)
hc.sql("""show databases""").show()
hc.sql("""CREATE EXTERNAL TABLE IF NOT EXISTS INVOICES
      (SubmissionDate DATE, TransactionAmount DOUBLE, TransactionType STRING)
      STORED AS PARQUET
      LOCATION 'gs://my-exercise-project-2019016-ds-team/datasets/invoices'""")
hc.sql("""select * from invoices limit 10""").show()

エラー

Py4JJavaError: An error occurred while calling o55.sql.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2395)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3208)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3240)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:121)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3291)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3259)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:470)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:356)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$or
4

1 に答える 1