問題タブ [google-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Google Cloud ストレージで MapReduce プログラムを実行するためのヘルプが必要
GCS コネクタを使用して Google Cloud Storage for Hadoop 2.3.0 を使用しています。
Hadoop インストールの lib ディレクトリに GCS.jar を追加し、次のhadoop-env.sh
ファイルに GCS コネクタへのパスを追加しました。
core-site.xml
また、Hadoop インストールのファイルを次のように変更しました。
作成したプロジェクトの請求先アカウントも有効になっています。
バケットを作成しました。バケットの内容は、次を使用して表示できます。
Hadoop のマスター ノードとワーカー ノードの Hadoop クリック デプロイ オプションを試してみたところ、VM インスタンスが作成されました。
認証ログイン用に gcloud をインストールしました。Git リポジトリも作成されます。
Google に投稿された MapReduce の記事に従っていましたが、完全なガイダンスには役立ちません。
質問: クラウド上にデプロイされた Hadoop を使用して、Java で開発された MapReduce プログラムを実行したいですか? プログラムで入力ファイルと出力ファイルにどのパスを指定すればよいですか?
私のプログラムは、私のシステムの Hadoop プラットフォームでうまく動作しています。
hadoop - Hadoop の google-datastore-connector を使用して、ローカル hdfs(ローカル マシン) から Google データストアの種類にデータをロードしていますか?
Hadoop に google-cloud-storage-connector を使用し、ローカル HDFS (ローカル マシンで実行されている Hadoop) から入力を受け取り、結果を Google Cloud Storage バケットに配置する mapreduce ジョブを実行できました。
ここで、ローカル HDFS (ローカル マシンで実行されている Hadoop) から入力を取得し、結果を Cloud Datastore の種類 (種類はデータベース テーブルと同義) に配置する、Hadoop 用の google-datastore-connector を使用して mapreduce ジョブを実行したいと考えています。
必要なすべての構成と、従う必要がある手順を教えてください。
r - Java ヒープ領域で OutOfMemory を使用して SparkR 収集メソッドがクラッシュする
SparkR を使用して、約 4M 行を含むテキスト ファイルから作成した RDD を PoC で収集しようとしています。
私の Spark クラスタは Google Cloud で実行されており、bdutil がデプロイされており、それぞれ 15 GB の RAM と 4 コアを備えた 1 つのマスターと 2 つのワーカーで構成されています。私の HDFS リポジトリは、gcs-connector 1.4.0 を使用した Google Storage に基づいています。SparkR は各マシンにインストールされており、基本的なテストは小さなファイルで動作しています。
私が使用するスクリプトは次のとおりです。
これを初めて実行すると、正常に動作しているように見えます。すべてのタスクが正常に実行され、spark の ui にはジョブが完了したと表示されますが、R プロンプトが返されません。
次に、CTRL-C を押して R プロンプトを元に戻した後、collect メソッドを再度実行しようとしました。結果は次のとおりです。
例外メッセージは理解できますが、なぜこれが 2 回目に表示されるのかわかりません。また、Spark で完了した後に収集が返されないのはなぜですか?
私は持っているすべての情報をグーグルで検索しましたが、解決策を見つけることができませんでした. どんな助けやヒントも大歓迎です!
ありがとう
google-cloud-platform - 1 つの Google Cloud プロジェクト内の複数の Hadoop クラスタ
1 つの Google Cloud プロジェクトに複数の Hadoop クラスタをデプロイすることはできますか?
java - Cloud Storage からの入力を伴うマップ タスクは 1 つのワーカーのみを使用します
ジョブFileInputFormat
の入力としてGoogle Cloud Storage のファイルを使用しようとしています。MapReduce
ファイルはAvro
形式です。
bdutil
簡単なテストとして、マスター ノードとそれぞれ 2 つのスロットを持つ 2 つのワーカー ノードで構成される小さな Hadoop2 クラスターをツールと共にデプロイしました。
ジョブを実行すると、ファイルは複数の部分に分割されます。データのロードにオフセットが使用されているログを調べることで確認できる事実。その結果、複数のマップ タスクが作成されます。これまでのところ、何も異常はありません。
ただし、これらのマップ タスクはワーカー ノード間で分散されません。代わりに、1 つのノードで 2 つのノードが開始され、他のノードはそのままのScheduled
状態になります。
各ワーカーで 2 つのマップ タスクが実行されることを期待していました。これは、データがワーカー ノード (クラウド ストレージ内) でローカルに利用できず、すべてのワーカーが同等の候補になるためです。
なぜこれが起こるのですか?
hadoop - Spark/Hadoop/Yarn クラスター通信には外部 IP が必要ですか?
bdutil を使用して Hadoop (2.6) クラスターに yarn-client を使用して Spark (1.3.1) をデプロイしました。デフォルトでは、インスタンスはエフェメラル外部 IP で作成され、これまでのところ Spark は正常に動作しています。いくつかのセキュリティ上の懸念があり、クラスターが内部アクセスのみであると仮定して、インスタンスから外部 IP を削除しました。その後、spark-shell は実行されず、Yarn/Hadoop と通信できないように見え、無期限にスタックしました。外部 IP を追加して初めて、spark-shell が適切に機能し始めます。
私の質問は、spark over yarn を実行するためにノードの外部 ips が必要ですか? またその理由は? はいの場合、セキュリティなどに関する懸念はありますか? ありがとう!
api - Java API 経由で Google Cloud Platform 上の HDFS にディレクトリを作成する方法
Google Cloud Storage を永続データのバックエンドとして使用して、Google Cloud Platform で Hadoop クラスタを実行しています。リモート マシンからマスター ノードに SSH で接続し、hadoop fs コマンドを実行できます。とにかく、次のコードを実行しようとすると、タイムアウト エラーが発生します。
コード
hdfs.exists() コマンドを実行すると、タイムアウト エラーが発生します。
エラー
org.apache.hadoop.net.ConnectTimeoutException: gl051-win7/192.xxx.1.xxx から 111.222.333.444.bc.googleusercontent.com:8020 への呼び出しがソケット タイムアウト例外で失敗しました: org.apache.hadoop.net.ConnectTimeoutException : チャネルの接続準備が整うまでの待機中に 20000 ミリ秒のタイムアウトが発生しました。ch : java.nio.channels.SocketChannel[connection-pending remote=111.222.333.444.bc.googleusercontent.com/111.222.333.444:8020]
Google Cloud Platform 上の Hadoop に対して Java Hadoop API を使用する際の制限を認識していますか?
ありがとう!
google-cloud-platform - GCP の無料クレジットを使用して Hadoop をデプロイするにはどうすればよいですか?
Google Cloud Platform の無料試用版を使用して Hadoop クラスタをテストするにはどうすればよいですか? これを試す場合に留意すべき最も重要なことは何ですか? Google Cloud Platform の無料試用中に料金は発生しますか?