問題タブ [google-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Google クラウド プラットフォームの Hadoop クラスタが起動しない
次のリソースを使用して、Google Cloud Platform で Hadoop クラスタを作成しようとしています。
- https://cloud.google.com/solutions/hadoop/
- https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop
Hadoop クラスターをセットアップした後、Hadoop を開始しようとすると、次のエラーが発生します。
私はSSH経由でインスタンスにアクセスしており、使用しています--noauth_local_webserver
google-bigquery - 出力スキーマの配列で例外が発生しました
Google BigQuery-Hadoop コネクタを使用して、この WordCount の例に従っています。
https://developers.google.com/hadoop/writing-with-bigquery-connector#completecode
この例はそのままで問題なく動作します。
出力スキーマで配列をテストするために、出力スキーマに配列オブジェクト定義を追加して、コードの 1 行だけを変更しました。
WordCount の例を実行すると、次の例外が発生します。
java.lang.IllegalStateException の com.google.gson.JsonArray.getAsString(JsonArray.java:133) の com.google.cloud.hadoop.io.bigquery.BigQueryUtils.getSchemaFromString(BigQueryUtils.java:97) の com.google. org.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWriter.(ReduceTask.java:568) の cloud.hadoop.io.bigquery.BigQueryOutputFormat.getRecordWriter(BigQueryOutputFormat.java:121) org.apache.hadoop.mapred.ReduceTask.runNewReducer の(ReduceTask.java:637) org.apache.hadoop.mapred.ReduceTask.run で (ReduceTask.java:418) org.apache.hadoop.mapred.Child$4.run(Child.java:255) で java.security .AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190) at org.apache.hadoop.mapred.Child.main(Child.java:249)
問題が何であるかを知っている人はいますか?
ありがとうございました
google-api - ローカル Hadoop クラスタから Google Cloud Storage に 50 TB のデータを移行する
Hadoop クラスタ内の既存のデータ (JSON) を Google Cloud Storage に移行しようとしています。
私は GSUtil を調査しましたが、大きなデータ セットを GCS に移行するための推奨オプションのようです。膨大なデータセットを扱えるようです。GSUtil はローカル マシンから GCS または S3<->GCS にしかデータを移動できないようですが、ローカルの Hadoop クラスタからデータを移動することはできません。
ローカルの Hadoop クラスタから GCS にデータを移動するための推奨される方法は何ですか?
GSUtil の場合、データをローカルの Hadoop クラスタ (HDFS) から GCS に直接移動できますか? それとも、まず GSUtil を実行しているマシンにファイルをコピーしてから GCS に転送する必要がありますか?
Google クライアント側 (Java API) ライブラリと GSUtil を使用することの長所と短所は何ですか?
どうもありがとう、
google-api - Google Compute Engine の Hadoop クラスタで Snappy/Snappy Codec を有効にする方法
Google Cloud Storage にある圧縮データに対して、Google Compute Engine で Hadoop ジョブを実行しようとしています。SequenceFileInputFormat を使用してデータを読み取ろうとすると、次の例外が発生します。
- SnappyCodec が利用できないようです。Google コンピューティング エンジンの Hadoop クラスタに Snappy を含める/有効にする方法を教えてください。
- Hadoop クラスターのデプロイ中に、bdutil スクリプトを使用して Snappy lib を (必要な場合) デプロイできますか?
- Google Compute Engine にデプロイされた Hadoop クラスタにサードパーティの libs/jar をデプロイするための最良の方法は何ですか?
どうもありがとう
google-app-engine - Hadoop が Google Cloud Storage に接続できない
Google Cloud VM で実行されている Hadoop を Google Cloud Storage に接続しようとしています。私は持っている:
- fs.gs.impl および fs.AbstractFileSystem.gs.impl のプロパティを含めるように core-site.xml を変更しました。
- 生成された hadoop-env.sh で gcs-connector-latest-hadoop2.jar をダウンロードして参照しました
- (サービス アカウントではなく)個人アカウントを使用して gcloud auth login 経由で認証されます。
問題なく gsutil -ls gs://mybucket/ を実行できますが、実行すると
hadoop fs -ls gs://mybucket/
出力が得られます:
Hadoop で Google ストレージを認識できるようにするために、どの手順が欠けているのでしょうか。
ありがとう!