問題タブ [google-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
out-of-memory - Google クラウド インスタンスで Spark を実行するとエラーが発生する
Apache Spark を使用してスタンドアロン アプリケーションを実行しています。すべてのデータをテキスト ファイルとして RDD にロードすると、次のエラーが発生しました。
cache
これは、RDD全体を関数でメモリにキャッシュしているという事実に関連していると思いました。コードからこの関数を取り除いても、何の変化も感じませんでした。だから私はこのエラーが発生し続けます。
私の RDD は、Google クラウド バケットにあるディレクトリ内の複数のテキスト ファイルから派生しています。
このエラーを解決するのを手伝ってくれませんか?
hadoop - Google Compute Engine の問題での Spark SQL
bdutil 1.1 を使用して Spark (1.2.0) クラスターをデプロイしています。ただし、spark スクリプトを起動すると問題が発生します。
スクリプトは私のラップトップで動作します。/home/hadoop/spark-install/lib パスに datanucleus-api-jdo-3.2.6.jar があります。
何が間違っている可能性がありますか?
hadoop - GCE Hadoop ワーカー ノードのレデューサー スロットの数は?
Google Compute Engine の Hadoop クラスタでいくつかの MapReduce ジョブのスケーリングをテストしており、予期しない結果がいくつか見つかりました。要するに、この動作は、Hadoop クラスター内の各ワーカー ノードごとに複数のレデューサー スロットがあることで説明できると言われています。
GCE の Hadoop クラスターでの MapReduce ジョブのワーカー ノード (ワーカー VM) あたりのレデューサー スロットの数を確認できますか? hadoop2_env.sh デプロイメントを使用しています。
https://groups.google.com/a/cloudera.org/forum/#!topic/oryx-user/AFIU2PE2g8oは、必要に応じて追加の詳細について、私が経験している動作に関する背景説明へのリンクを提供します。
ありがとう!
python - bdutil コマンドを強制的に root として実行するには?
App Engine アプリケーションから Google Compute Engine VM を起動しています。GCE VM の起動スクリプトは python スクリプトを実行し、次に os.system が bdutil コマンドを呼び出します。
これらのスクリプトをルートとして実行する必要があることがわかりました。
--force deploy
コマンド オプションは期待どおりに機能します。つまり、シェル ターミナルに次のように表示されます。
ただし、別のプロンプトが含まれています。
これらのスクリプトをルートとして実行する必要があることがわかりましたが、リモートでも実行しているため、ターミナル プロンプトに応答できません。
最後のプロンプトに応答せずに、この bdutil コマンドを強制的に実行するにはどうすればよいですか? bdutil ソース コードの変更は実行可能なオプションではありません。
hadoop - Google Cloud Engine : Hadoop のコマンドライン インストール中に LibSnappy がインストールされていないというエラーが発生する
コマンド ライン オプションを使用して、カスタム Hadoop 実装 (>2.0) を Google Compute Engine にインストールしようとしています。bdutil_env.sh ファイルの変更されたパラメーターは次のとおりです。
./bdutil デプロイが終了コード 1 で失敗します。結果の debug.info ファイルに次のエラーが見つかります。
最初の ssh エラーが表示される理由がわかりません。VM を確認し、UI から適切にログインできます。私の tar.gz も適切な場所にコピーされます。
libsnappy がインストールされなかった理由もわかりません。私がしなければならないことは特にありますか?シェルスクリプトにはインストールするためのコマンドがあるようですが、どういうわけか失敗しています。
すべての VM をチェックしました。Hadoop が起動していません。
編集:sshの問題を解決するために、次のコマンドを実行しました:
gcutil --project= addfirewall --allowed=tcp:22 default-ssh
違いはありませんでした。
hadoop - Hadoop クラスタを複数の Google プロジェクト内の複数の Google Cloud Storage バケットに接続する
私の Hadoop クラスタを一度に複数の Google Cloud プロジェクトに接続することは可能ですか?
このスレッドMigrating 50TB data from local Hadoop cluster to Google Cloud Storageで説明されているように、Google Cloud Storage Connector を介して単一の Google プロジェクトで任意の Google Storage バケットを簡単に使用できます。しかし、1 つの map-reduce ジョブから 2 つ以上の Google Cloud プロジェクトに接続する方法のドキュメントや例が見つかりません。提案/トリックはありますか?
どうもありがとう。
java - BigQuery を使用したマップのみの MapReduce ジョブ
BigQuery にデータを挿入する Mapreduce ジョブが作成されました。私たちのジョブにはフィルタリング機能があまりないので、マップのみのジョブにして、より高速かつ効率的にしたいと考えています。
ただし、BigQuery が受け入れる Java クラス「com.google.gson.JsonObject」には、hadoop Mapper インターフェースに必要な Writable インターフェースが実装されていません。JsonObject も final であり、拡張することはできません...
この問題を回避する方法について何か提案はありますか?
ありがとう、