問題タブ [google-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
254 参照

python - Google クラウド プラットフォームの Hadoop クラスタが起動しない

次のリソースを使用して、Google Cloud Platform で Hadoop クラスタを作成しようとしています。

Hadoop クラスターをセットアップした後、Hadoop を開始しようとすると、次のエラーが発生します。

私はSSH経由でインスタンスにアクセスしており、使用しています--noauth_local_webserver

0 投票する
1 に答える
215 参照

google-bigquery - 出力スキーマの配列で例外が発生しました

Google BigQuery-Hadoop コネクタを使用して、この WordCount の例に従っています。

https://developers.google.com/hadoop/writing-with-bigquery-connector#completecode

この例はそのままで問題なく動作します。

出力スキーマで配列をテストするために、出力スキーマに配列オブジェクト定義を追加して、コードの 1 行だけを変更しました。

WordCount の例を実行すると、次の例外が発生します。

java.lang.IllegalStateException の com.google.gson.JsonArray.getAsString(JsonArray.java:133) の com.google.cloud.hadoop.io.bigquery.BigQueryUtils.getSchemaFromString(BigQueryUtils.java:97) の com.google. org.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWriter.(ReduceTask.java:568) の cloud.hadoop.io.bigquery.BigQueryOutputFormat.getRecordWriter(BigQueryOutputFormat.java:121) org.apache.hadoop.mapred.ReduceTask.runNewReducer の(ReduceTask.java:637) org.apache.hadoop.mapred.ReduceTask.run で (ReduceTask.java:418) org.apache.hadoop.mapred.Child$4.run(Child.java:255) で java.security .AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190) at org.apache.hadoop.mapred.Child.main(Child.java:249)

問題が何であるかを知っている人はいますか?

ありがとうございました

0 投票する
2 に答える
8288 参照

google-api - ローカル Hadoop クラスタから Google Cloud Storage に 50 TB のデータを移行する

Hadoop クラスタ内の既存のデータ (JSON) を Google Cloud Storage に移行しようとしています。

私は GSUtil を調査しましたが、大きなデータ セットを GCS に移行するための推奨オプションのようです。膨大なデータセットを扱えるようです。GSUtil はローカル マシンから GCS または S3<->GCS にしかデータを移動できないようですが、ローカルの Hadoop クラスタからデータを移動することはできません。

  1. ローカルの Hadoop クラスタから GCS にデータを移動するための推奨される方法は何ですか?

  2. GSUtil の場合、データをローカルの Hadoop クラスタ (HDFS) から GCS に直接移動できますか? それとも、まず GSUtil を実行しているマシンにファイルをコピーしてから GCS に転送する必要がありますか?

  3. Google クライアント側 (Java API) ライブラリと GSUtil を使用することの長所と短所は何ですか?

どうもありがとう、

0 投票する
1 に答える
5190 参照

google-api - Google Compute Engine の Hadoop クラスタで Snappy/Snappy Codec を有効にする方法

Google Cloud Storage にある圧縮データに対して、Google Compute Engine で Hadoop ジョブを実行しようとしています。SequenceFileInputFormat を使用してデータを読み取ろうとすると、次の例外が発生します。

  1. SnappyCodec が利用できないようです。Google コンピューティング エンジンの Hadoop クラスタに Snappy を含める/有効にする方法を教えてください。
  2. Hadoop クラスターのデプロイ中に、bdutil スクリプトを使用して Snappy lib を (必要な場合) デプロイできますか?
  3. Google Compute Engine にデプロイされた Hadoop クラスタにサードパーティの libs/jar をデプロイするための最良の方法は何ですか?

どうもありがとう

0 投票する
3 に答える
4094 参照

google-app-engine - Hadoop が Google Cloud Storage に接続できない

Google Cloud VM で実行されている Hadoop を Google Cloud Storage に接続しようとしています。私は持っている:

  • fs.gs.impl および fs.AbstractFileSystem.gs.impl のプロパティを含めるように core-site.xml を変更しました。
  • 生成された hadoop-env.sh で gcs-connector-latest-hadoop2.jar をダウンロードして参照しました
  • (サービス アカウントではなく)個人アカウントを使用して gcloud auth login 経由で認証されます。

問題なく gsutil -ls gs://mybucket/ を実行できますが、実行すると

hadoop fs -ls gs://mybucket/

出力が得られます:

Hadoop で Google ストレージを認識できるようにするために、どの手順が欠けているのでしょうか。

ありがとう!