問題タブ [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - GCE 上の Hadoop インスタンス
Google Compute Engine で Hadoop クラスターをセットアップしています。しかし、クラスター インスタンスがどのように機能するのか理解できません。私はすでにたくさん検索しましたが、明確な答えを与えるものはありませんでした。
Hadoop クラスターをセットアップするとき、Hadoop がインストールされている 1 つのインスタンスのイメージを作成し、このインスタンス (イメージ) を起動するたびに他のインスタンス (ノード) を作成しますか?
しかし、このアプローチでは、ノードを作成するたびにノードを構成する必要がありますか?
Google Compute Engine での Hadoop クラスタの一部のセットアップについて、これを経験したことがある人はいますか?ドキュメントを提供できますか?
apache-spark - spark ジョブをローカルで実行するときの「Scheme: gs のファイルシステムがありません」
Spark ジョブ (バージョン 1.2.0) を実行しています。入力は Google Cloud Storage バケット内のフォルダーです (つまり、gs://mybucket/folder)。
Mac マシンでローカルにジョブを実行すると、次のエラーが発生します。
5932 [main] ERROR com.doit.customer.dataconverter.Phase1 - 日付: 2014_09_23 のジョブがエラーで失敗しました: スキームのファイルシステムがありません: gs
gs パスをサポートするには、2 つのことを行う必要があることを知っています。1 つは GCS コネクタをインストールする方法で、もう 1 つは Hadoop インストールの core-site.xml で次の設定を行う方法です。
私の問題は、このローカルモードで各ピースを正確にどこに設定する必要があるのか わからないという事実から来ていると思います. Intellij プロジェクトでは Maven を使用しているため、次のように spark ライブラリをインポートしました。
、および Hadoop 1.2.1 は次のとおりです。
問題は、Hadoop の場所が Spark 用に構成されている場所と、hadoop conf が構成されている場所がわからないことです。したがって、間違った Hadoop インストールに追加している可能性があります。また、ファイルを変更した後に再起動する必要があるものはありますか? 私の知る限り、私のマシンでは Hadoop サービスが実行されていません。
apache-spark - Hadoop 入力形式の例を介した pyspark 用の BigQuery コネクタ
BigQuery テーブルに格納されている大規模なデータセットがあり、ETL データ処理のために pypark RDD にロードしたいと考えています。
BigQuery が Hadoop の入出力形式をサポートしていることに気付きました
https://cloud.google.com/hadoop/writing-with-bigquery-connector
pyspark は、メソッド「newAPIHadoopRDD」を使用して RDD を作成するために、このインターフェイスを使用できる必要があります。
http://spark.apache.org/docs/latest/api/python/pyspark.html
残念ながら、両端のドキュメントは不足しているようで、Hadoop/Spark/BigQuery に関する私の知識を超えています。これを行う方法を考え出した人はいますか?
hadoop - Dataproc クラスタの起動時に Python ライブラリを自動的にインストールするにはどうすればよいですか?
クラスタの起動時に Dataproc クラスタに Python ライブラリを自動的にインストールするにはどうすればよいですか? これにより、必要なライブラリを手動でインストールするためにマスター ノードやワーカー ノードに手動でログインする手間が省けます。
また、この自動インストールがワーカーではなくマスターにのみインストールできるかどうかも知っておくとよいでしょう。
scala - Google Cloud Dataproc - Spark 経由で Spark ジョブを送信する
Scala コード内から Google Cloud Dataproc に Spark ジョブを送信する方法はありますか?
マスター URI はどのように見えるべきですか?
API キーまたはキーペアで認証するには、どのキーと値のペアを設定する必要がありますか?
google-cloud-dataproc - 「--py-files」引数を使用して PySpark ジョブをクラスターに送信します
使用するPythonファイルのzipのGCS uri( --py-files 引数を介して)とPythonファイル名を PY_FILE 引数値としてジョブを送信しようとしていました。これはうまくいかなかったようです。PY_FILE 値に相対パスを指定する必要がありますか? PY_FILE も zip に含まれています。例えば
PY_FILE の値は?
google-cloud-dataproc - Spark --jars オプションを使用して PySpark ジョブをクラスターに送信する
PySpark ジョブを送信するときに --jars PySpark 送信オプションを指定できるようにしたいと考えています。ただし、このオプションはサポートされていません。代替手段はありますか?
google-cloud-dataproc - 初期化スクリプトの使用時に Google Dataproc Agent がエラーを報告する
初期化スクリプトを使用してクラスターをセットアップしようとしていますが、次のエラーが表示されます: [BAD JSON: JSON 解析エラー: 予期しない識別子 "Google"] ログ フォルダーに、init スクリプトの出力ログがありません。過去 1 週間は機能しているように見えたため、これはかなり奇妙に思えます。また、エラー メッセージは init スクリプトに関連しているようには見えず、クラスター作成の入力引数に関連しているようです。次のコマンドを使用しました。