“google-cloud-dataproc”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

278 参照

hadoop - GCE 上の Hadoop インスタンス

Google Compute Engine で Hadoop クラスターをセットアップしています。しかし、クラスターインスタンスがどのように機能するのか理解できません。私はすでにたくさん検索しましたが、明確な答えを与えるものはありませんでした。

Hadoop クラスターをセットアップするとき、Hadoop がインストールされている 1 つのインスタンスのイメージを作成し、このインスタンス (イメージ) を起動するたびに他のインスタンス (ノード) を作成しますか?

しかし、このアプローチでは、ノードを作成するたびにノードを構成する必要がありますか?

Google Compute Engine での Hadoop クラスタの一部のセットアップについて、これを経験したことがある人はいますか?ドキュメントを提供できますか?

2014-04-28T09:37:53.147

0 投票する

3 に答える

12778 参照

apache-spark - spark ジョブをローカルで実行するときの「Scheme: gs のファイルシステムがありません」

Spark ジョブ (バージョン 1.2.0) を実行しています。入力は Google Cloud Storage バケット内のフォルダーです (つまり、gs://mybucket/folder)。

Mac マシンでローカルにジョブを実行すると、次のエラーが発生します。

5932 [main] ERROR com.doit.customer.dataconverter.Phase1 - 日付: 2014_09_23 のジョブがエラーで失敗しました: スキームのファイルシステムがありません: gs

gs パスをサポートするには、2 つのことを行う必要があることを知っています。1 つは GCS コネクタをインストールする方法で、もう 1 つは Hadoop インストールの core-site.xml で次の設定を行う方法です。

私の問題は、このローカルモードで各ピースを正確にどこに設定する必要があるのかわからないという事実から来ていると思います. Intellij プロジェクトでは Maven を使用しているため、次のように spark ライブラリをインポートしました。

、および Hadoop 1.2.1 は次のとおりです。

問題は、Hadoop の場所が Spark 用に構成されている場所と、hadoop conf が構成されている場所がわからないことです。したがって、間違った Hadoop インストールに追加している可能性があります。また、ファイルを変更した後に再起動する必要があるものはありますか? 私の知る限り、私のマシンでは Hadoop サービスが実行されていません。

apache-spark hadoop google-cloud-storage google-cloud-dataproc google-hadoop

2015-01-05T15:41:25.503

0 投票する

1 に答える

1600 参照

apache-spark - Hadoop 入力形式の例を介した pyspark 用の BigQuery コネクタ

BigQuery テーブルに格納されている大規模なデータセットがあり、ETL データ処理のために pypark RDD にロードしたいと考えています。

BigQuery が Hadoop の入出力形式をサポートしていることに気付きました

https://cloud.google.com/hadoop/writing-with-bigquery-connector

pyspark は、メソッド「newAPIHadoopRDD」を使用して RDD を作成するために、このインターフェイスを使用できる必要があります。

http://spark.apache.org/docs/latest/api/python/pyspark.html

残念ながら、両端のドキュメントは不足しているようで、Hadoop/Spark/BigQuery に関する私の知識を超えています。これを行う方法を考え出した人はいますか？

apache-spark google-bigquery pyspark google-hadoop google-cloud-dataproc

2015-07-14T08:11:27.803

0 投票する

1 に答える

3650 参照

hadoop - Dataproc クラスタの起動時に Python ライブラリを自動的にインストールするにはどうすればよいですか?

クラスタの起動時に Dataproc クラスタに Python ライブラリを自動的にインストールするにはどうすればよいですか? これにより、必要なライブラリを手動でインストールするためにマスターノードやワーカーノードに手動でログインする手間が省けます。

また、この自動インストールがワーカーではなくマスターにのみインストールできるかどうかも知っておくとよいでしょう。

hadoop apache-spark google-cloud-platform google-cloud-dataproc

2015-09-23T17:29:49.217

0 投票する

1 に答える

791 参照

scala - Google Cloud Dataproc - Spark 経由で Spark ジョブを送信する

Scala コード内から Google Cloud Dataproc に Spark ジョブを送信する方法はありますか?

マスター URI はどのように見えるべきですか?

API キーまたはキーペアで認証するには、どのキーと値のペアを設定する必要がありますか?

scala apache-spark google-cloud-platform google-cloud-dataproc

2015-09-24T09:04:34.807

0 投票する

1 に答える

3498 参照

google-cloud-dataproc - 「--py-files」引数を使用して PySpark ジョブをクラスターに送信します

使用するPythonファイルのzipのGCS uri（ --py-files 引数を介して）とPythonファイル名を PY_FILE 引数値としてジョブを送信しようとしていました。これはうまくいかなかったようです。PY_FILE 値に相対パスを指定する必要がありますか? PY_FILE も zip に含まれています。例えば

PY_FILE の値は?

google-cloud-dataproc

2015-09-25T15:43:08.170

0 投票する

1 に答える

326 参照

google-cloud-dataproc - Spark --jars オプションを使用して PySpark ジョブをクラスターに送信する

PySpark ジョブを送信するときに --jars PySpark 送信オプションを指定できるようにしたいと考えています。ただし、このオプションはサポートされていません。代替手段はありますか？

google-cloud-dataproc

2015-09-28T09:26:29.887

0 投票する

2 に答える

1536 参照

google-cloud-dataproc - 初期化スクリプトの使用時に Google Dataproc Agent がエラーを報告する

初期化スクリプトを使用してクラスターをセットアップしようとしていますが、次のエラーが表示されます: [BAD JSON: JSON 解析エラー: 予期しない識別子 "Google"] ログフォルダーに、init スクリプトの出力ログがありません。過去 1 週間は機能しているように見えたため、これはかなり奇妙に思えます。また、エラーメッセージは init スクリプトに関連しているようには見えず、クラスター作成の入力引数に関連しているようです。次のコマンドを使用しました。

google-cloud-dataproc

2015-09-28T14:54:42.620

問題タブ [google-cloud-dataproc]

Reference