問題タブ [cloudera-cdh]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1025 参照

hadoop - sqoop ジョブの実行中に複数の sqoop プロパティをオーバーライドする

実行時に sqoop ジョブのプロパティをオーバーライドすると、1 つのプロパティしかオーバーライドできないことがわかりました。

例 1: 私が提出した場合

クエリ プロパティのみをオーバーライドします

例 2: 私が提出した場合

クエリ プロパティの last-value プロパティのみをオーバーライドします。

  1. sqoop ジョブの実行中に複数の sqoop プロパティをオーバーライドすることはできますか? そうでない場合、これに対する回避策はありますか?

  2. Sqoop ジョブを実行せずに更新できますか?

0 投票する
4 に答える
6557 参照

hadoop - Map Reduce スロットの定義

私はクラウド時代の Hadoop 管理者になる道を進んでいます。私が始めて以来、Hadoop クラスター内のマシンごとのスロットの計算についてよく耳にします。たとえば、マップ スロットやリデュース スロットの数を定義するようなものです。

Map Reduce Slot の Noob 定義を取得するためのログ時間をインターネットで検索しましたが、何も見つかりませんでした。

Map Reduce の構成を説明している PDF を見て、私は本当に腹を立てています。

クラスタのマシンのコンピューティング スロットに関して、それが正確に何を意味するのか説明してください。

0 投票する
1 に答える
2287 参照

java - Spark クラスのコンパイル中の「Eclipse Plugin for Scala」でのエラー

私は CDH5.1.0 を使用して簡単な Spark プログラミングを行っています。また、Eclipse Juno (VM に付属) があり、Scala IDE プラグイン 2.10.0 がインストールされています。IDE で次のエラーが発生します。

シンボリック参照が正しくありません。SparkContext.class の署名は、利用できないパッケージ org.apache.hadoop の用語 io を参照しています。現在のクラスパスから完全に欠落しているか、クラスパスのバージョンが SparkContext.class のコンパイル時に使用されたバージョンと互換性がない可能性があります。SimpleApp.scala /MyScalaProject/src/com/test/spark1 行 10 Scala の問題

コード:

行番号 10 (var conf - new org.apache.spark.SparkCon...) と行番号 15 (println...) でも同じエラーが発生します。

私のプロジェクト ビルド パスには/usr/lib/spark/assembly/lib/spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar、この単純な scala プログラムに必要なすべてのクラスがあることを確認しました。

0 投票する
1 に答える
275 参照

linux - リモートジョブ送信のための典型的な Hadoop セットアップ

そのため、私はまだ Hadoop に少し慣れておらず、現在 Amazonaws で小さなテスト クラスターをセットアップしている最中です。したがって、私の質問は、クラスターの構造化に関するいくつかのヒントに関連しているため、リモート マシンからサブミット ジョブを実行できます。

現在、私は5台のマシンを持っています。4 は基本的に NameNodes、Yarn などを含む Hadoop クラスターです。1 台のマシンはマネージャー マシン (Cloudera Manager) として使用されます。セットアップに関する私の思考プロセスを説明します。誰かが私がはっきりしていない点を指摘してくれれば、それは素晴らしいことです.

小さなクラスターに最適なセットアップは何かを考えていました。そこで、マネージャー マシンを 1 つだけ公開し、おそらくそれを使用してすべてのジョブを送信することにしました。他のマシンはお互いを認識しますが、外部からはアクセスできません。私はこれを行う方法について概念的な考えを持っていますが、誰かが私を正しい方向に向けることができれば、これを適切に行う方法がわかりません。

また、もう 1 つの大きなポイントは、クライアント マシン (Windows の可能性があります) から公開マシンを介してクラスターにジョブを送信できるようにしたいということです。この設定についてもよくわかりません。通常の Hadoop コマンドを使用し、Eclipse などからジョブを作成/送信するには、Hadoop をマシンにインストールする必要がありますか?

要約すると、私の質問は、

  1. これは小規模なテスト クラスタの設定で問題ありませんか
  2. 1 台の公開されたマシンを使用して、Hadoop ノードをまったく持たずにジョブをクラスターに送信/ルーティングするにはどうすればよいでしょうか。
  3. リモート クラスタにジョブを送信するようにクライアント マシンをセットアップする方法と、Windows での実行方法の例。また、このセットアップで Windows をクライアント マシンとして使用しない理由がある場合。

ありがとう、これに関するアドバイスや助けをいただければ幸いです。

0 投票する
1 に答える
2234 参照

hadoop - CDH5 hdfs バランサ エラー

「hdfs バランサー」を実行すると、ラック トポロジがインストールされ、ノードが過剰に使用されたり、使用率が低下したりして、「クラスターのバランスを取るには 5 TB を移動する必要があります」と「10.150.11.24 から 10 GB バイトを移動することにしました: 50010 から 10.150.11.164:50010"

次に、このエラーが表示されます。

WARN balancer.Balancer: Dispatcher スレッドが org.apache.hadoop.hdfs.server.balancer.Balancer の org.apache.hadoop.hdfs.server.balancer.Balancer.isGoodBlockCandidate(Balancer.java:1233) で java.lang.NullPointerException に失敗しましたorg.apache.hadoop.hdfs.server.balancer.Balancer$Source.isGoodBlockCandidate(Balancer.java:686) の .access$400(Balancer.java:183) org.apache.hadoop.hdfs.server.balancer.Balancer$ のSource.getBlockList(Balancer.java:674) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source.dispatchBlocks(Balancer.java:776) at org.apache.hadoop.hdfs.server.balancer.Balancer$ java.util.concurrent.Executors$RunnableAdapter.call の org.apache.hadoop.hdfs.server.balancer.Balancer$Source$BlockMoveDispatcher.run(Balancer.java:614) の Source.access$1600(Balancer.java:607) (Executors.java:471) Java で。util.concurrent.FutureTask.run(FutureTask.java:262) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) java.lang.Thread.run(Thread.java:744) で

それからこれ、

5 回の反復でブロックは移動されませんでした。終了しています...

警告 hdfs.DFSClient: DataStreamer 例外 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): /system/balancer.id にリースがありません: ファイルが存在しません。ホルダー DFSClient_NONMAPREDUCE_-201468433_1 には開いているファイルがありません。org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:2937) で org.apache.hadoop.hdfs.server.namenode.FSNamesystem.analyzeFileState(FSNamesystem.java:2757) で org.apache .hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2665) org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:569) org.apache.hadoop.hdfs でorg.apache の .protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:440)。

namenode ログには次のように表示されます。

警. ホルダー DFSClient_NONMAPREDUCE_-201468433_1 には開いているファイルがありません。

INFO org.apache.hadoop.ipc.Server: 8020 で IPC サーバー ハンドラー 118、10.150.11.126:56490 から org.apache.hadoop.hdfs.protocol.ClientProtocol.addBlock を呼び出します Call#71 Retry#0: エラー: org.apache .hadoop.hdfs.server.namenode.LeaseExpiredException: /system/balancer.id にリースがありません: ファイルが存在しません。ホルダー DFSClient_NONMAPREDUCE_-201468433_1 には開いているファイルがありません。

バランサープロセスの重複に関する議論を検索して見つけましたが、クラスターでこの問題を見つけることができませんでした。誰か他のアイデアがありますか?私たちはcdh5.0.1を使用しています

0 投票する
2 に答える
156 参照

hadoop - Cloudera CDH デモ

Datastax DSE には、よく整理されたデモが付属しています。Cloudera CDH5似たようなものを提供していますか?

0 投票する
1 に答える
362 参照

hadoop - cloudera CDH5.1.0 で giraph を実行中にエラーが発生しました

だから、Hadoop 2.3.0-cdh5.1.0 をクラスターにインストールしました...そして、次のコマンドを使用して giraph をコンパイルしました..コンパイルは正常に機能し、pagerankmvn clean package -DskipTests -Dhadoop=non_secure -Phadoop_2.0.0 ベンチマークも成功しました..だから、私は推測していますgiraph は問題なくコンパイルされました。

今、私は自分のコードを実行しようとしています..

私は知っています、それは不完全なコマンドですが、すでに不平を言っています.. :-/

私のPOMファイルは次のようになります:

これを解決するにはどうすればよいですか? ありがとう