“google-hadoop”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

814 参照

out-of-memory - Google クラウドインスタンスで Spark を実行するとエラーが発生する

Apache Spark を使用してスタンドアロンアプリケーションを実行しています。すべてのデータをテキストファイルとして RDD にロードすると、次のエラーが発生しました。

cacheこれは、RDD全体を関数でメモリにキャッシュしているという事実に関連していると思いました。コードからこの関数を取り除いても、何の変化も感じませんでした。だから私はこのエラーが発生し続けます。

私の RDD は、Google クラウドバケットにあるディレクトリ内の複数のテキストファイルから派生しています。

このエラーを解決するのを手伝ってくれませんか?

2015-02-27T20:45:09.103

0 投票する

1 に答える

337 参照

hadoop - Google Compute Engine の問題での Spark SQL

bdutil 1.1 を使用して Spark (1.2.0) クラスターをデプロイしています。ただし、spark スクリプトを起動すると問題が発生します。

スクリプトは私のラップトップで動作します。/home/hadoop/spark-install/lib パスに datanucleus-api-jdo-3.2.6.jar があります。

何が間違っている可能性がありますか？

hadoop apache-spark google-compute-engine google-cloud-platform google-hadoop

2015-03-13T13:11:37.383

0 投票する

1 に答える

211 参照

hadoop - GCE Hadoop ワーカーノードのレデューサースロットの数は?

Google Compute Engine の Hadoop クラスタでいくつかの MapReduce ジョブのスケーリングをテストしており、予期しない結果がいくつか見つかりました。要するに、この動作は、Hadoop クラスター内の各ワーカーノードごとに複数のレデューサースロットがあることで説明できると言われています。

GCE の Hadoop クラスターでの MapReduce ジョブのワーカーノード (ワーカー VM) あたりのレデューサースロットの数を確認できますか? hadoop2_env.sh デプロイメントを使用しています。

https://groups.google.com/a/cloudera.org/forum/#!topic/oryx-user/AFIU2PE2g8oは、必要に応じて追加の詳細について、私が経験している動作に関する背景説明へのリンクを提供します。

ありがとう！

hadoop mapreduce google-compute-engine google-hadoop

2015-04-01T18:58:48.630

0 投票する

1 に答える

145 参照

python - bdutil コマンドを強制的に root として実行するには?

App Engine アプリケーションから Google Compute Engine VM を起動しています。GCE VM の起動スクリプトは python スクリプトを実行し、次に os.system が bdutil コマンドを呼び出します。

これらのスクリプトをルートとして実行する必要があることがわかりました。

--force deployコマンドオプションは期待どおりに機能します。つまり、シェルターミナルに次のように表示されます。

ただし、別のプロンプトが含まれています。

これらのスクリプトをルートとして実行する必要があることがわかりましたが、リモートでも実行しているため、ターミナルプロンプトに応答できません。

最後のプロンプトに応答せずに、この bdutil コマンドを強制的に実行するにはどうすればよいですか? bdutil ソースコードの変更は実行可能なオプションではありません。

python google-app-engine google-compute-engine google-hadoop

2015-04-24T20:29:36.940

0 投票する

2 に答える

468 参照

hadoop - Google Cloud Engine : Hadoop のコマンドラインインストール中に LibSnappy がインストールされていないというエラーが発生する

コマンドラインオプションを使用して、カスタム Hadoop 実装 (>2.0) を Google Compute Engine にインストールしようとしています。bdutil_env.sh ファイルの変更されたパラメーターは次のとおりです。

./bdutil デプロイが終了コード 1 で失敗します。結果の debug.info ファイルに次のエラーが見つかります。

最初の ssh エラーが表示される理由がわかりません。VM を確認し、UI から適切にログインできます。私の tar.gz も適切な場所にコピーされます。

libsnappy がインストールされなかった理由もわかりません。私がしなければならないことは特にありますか？シェルスクリプトにはインストールするためのコマンドがあるようですが、どういうわけか失敗しています。

すべての VM をチェックしました。Hadoop が起動していません。

編集:sshの問題を解決するために、次のコマンドを実行しました:

gcutil --project= addfirewall --allowed=tcp:22 default-ssh

違いはありませんでした。

hadoop google-compute-engine google-hadoop

2015-04-30T05:36:52.117

0 投票する

1 に答える

217 参照

hadoop - Hadoop クラスタを複数の Google プロジェクト内の複数の Google Cloud Storage バケットに接続する

私の Hadoop クラスタを一度に複数の Google Cloud プロジェクトに接続することは可能ですか?

このスレッドMigrating 50TB data from local Hadoop cluster to Google Cloud Storageで説明されているように、Google Cloud Storage Connector を介して単一の Google プロジェクトで任意の Google Storage バケットを簡単に使用できます。しかし、1 つの map-reduce ジョブから 2 つ以上の Google Cloud プロジェクトに接続する方法のドキュメントや例が見つかりません。提案/トリックはありますか？

どうもありがとう。

hadoop google-cloud-storage google-hadoop

2015-05-06T16:04:01.930

0 投票する

2 に答える

676 参照

java - BigQuery を使用したマップのみの MapReduce ジョブ

BigQuery にデータを挿入する Mapreduce ジョブが作成されました。私たちのジョブにはフィルタリング機能があまりないので、マップのみのジョブにして、より高速かつ効率的にしたいと考えています。

ただし、BigQuery が受け入れる Java クラス「com.google.gson.JsonObject」には、hadoop Mapper インターフェースに必要な Writable インターフェースが実装されていません。JsonObject も final であり、拡張することはできません...

この問題を回避する方法について何か提案はありますか?

ありがとう、

java hadoop google-bigquery google-hadoop

2015-05-27T13:56:33.467

問題タブ [google-hadoop]

Reference