問題タブ [cloudera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - root アクセスなしで Hadoop Cloudera を使用できますか?
少し二者択一の質問です (わかりました、正確ではありません) - ノード コンピューターへの root シェル アクセスなしでノードで実行するように cloudera / hadoop を構成できるかどうか疑問に思っていました (ただし、ssh パスワードなしのログインをセットアップできます)?
root アクセスが必要であるという指示が表示されますが、まだ root アクセスが必要ない可能性があることを示唆する Hadoop wiki を見つけました。http://wiki.apache.org/nutch/NutchHadoopTutorial
logging - コマンドラインフルームがエラーをスローします
Flume でコンソールからログを収集したいので、次のコマンドで Flume を起動します。
しかし、それは言う:
10/09/22 13:59:21 INFO agent.FlumeNode: コマンド ラインから仕様を読み込んでいます: 'ノード: コンソール | agentBESink("localhost", 12345)'
10/09/22 13:59:21 WARN agent.FlumeNode: ノードの読み込み例外をキャッチ: パーサー エラー: 位置 -1 行 0 で予期しない「null」:「ノード: コンソール | agentBESink("localhost", 12345)'
私は何が欠けていますか?Cloudera の howtoに従いました。それはうまくいくと期待されていますね。
hadoop - ログがコンソールに表示されません :( [Hadoop の質問]
Cloudera Hadoopの WordCount の例をデバッグしようとしていますが、できません。マッパーとリデューサー クラスをログに記録しましたが、コンソールにログが表示されません。
画像を添付します。最初の画像では、Java ログ。
2 番目のイメージでは、結果がログに記録されます。最初のものは表示されません:( http://i56.tinypic.com/2eztkli.png
知ってる人いますか??どうもありがとう!!
hadoop - Hadoop 分散キャッシュ (Cloudera CH3)
バイナリ実行可能ファイルとキャッシュされたアーカイブを使用して簡単な例を実行しようとしていますが、動作していないようです:
私が実行しようとしている例には、3 つのランダムな double とキーを生成するマッパーがあり、リデューサーはこれら 3 つの数値を平均して平均をログに記録します。とてもシンプルなもの。私は乱数を生成するcで簡単なEXEを書きました:
./a.out [key] を呼び出すと
私は見る
キー、ランダム 1、ランダム 2、ランダム 3
私はpythonストリーミングを使用しています。これがpythonで書かれた私のマッパーです:
平均化を行うだけのレデューサーは次のとおりです。
ドキュメントを読んだ後、バイナリとtar.gz-itをコンパイルする必要があるようです
1) tar cvaf a.out.tar.gz a.out
これで、-cacheArchive パラメータを介してこれをデータノードに渡すことができ、すべて正常に動作するはずです。私のHadoopコマンドは次のとおりです。
hadoop jar /usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2+737.jar \ -numReduceTasks 1 \ -mapper mapper1.py \ -file mapper1.py \ -reducer reducer1.py \ - file reducer1.py \ -file misc.py \ -cacheArchive a.out.tar.gz \ -input input/* \ -output testsvmoutput \ -verbose
言うまでもなく、これは機能しません。マッパーがデータを生成していないことが原因のようです。
コマンドラインでテストして、コードが機能することを確認しました。
猫入力/svminput1.txt | python mapper1.py | ソート | python reducer1.py
なぜこれが機能しないのか、データノードで cacheArchive コマンドを介して exe を渡す方法、および/または Cloudera html パネルから出てくるエラーメッセージはあまり役に立たないため、これをデバッグする方法を誰かに説明してもらいたいです。
ありがとう
これが私が見ているエラーです:
amazon-web-services - whirr を使用してクラスターを起動する
私は whirr と AWS を初めて使用するので、ばかげたことを尋ねている場合は事前にお詫びします。
こちらの指示に従って、whirr をセットアップし、
次のエラーで失敗します。
私の hadoop.properties ファイルには、AWS アクセス キーとシークレット アクセス キーがあります。
私が間違っていた可能性があることと、これを修正するために何をする必要があるかについての指針はありますか?
ありがとう!
eclipse-plugin - Hadoop用のEclipseプラグインはCDH3で動作しますか
clouderaCDH3を自分のマシンにインストールします。次に、Eclipseプラグイン(JIRA MAPREDUCE-1280)を使用していくつかのMRタスクを実行しようとします。ただし、何らかの理由でプラグインがCDH3で動作しないようです。DFSに接続できません。
プラグインを機能させるものはありますか?
hadoop - Flume エージェント - gzip や bz2 などの圧縮を指定できますか?
Flume エージェントで圧縮オプションを指定して、データが圧縮形式でコレクターに転送されるようにすることはできますか? コレクター レベルで圧縮オプションがあることは知っていますが、圧縮されたデータをエージェントからも転送できると非常に便利です。
ありがとうございました!
ruby - MapReduce 基本プログラムでストリーミング コマンドが失敗するのはなぜですか?
「Rubyの決定版ガイド」に記載されているRuby Hadoopストリーミングプログラムを実行しようとしていました。
これは私が使用したコマンドです:
ファイルパスは正しいです。コマンドを実行すると、次のようなエラーが表示されます。
マップ ログ ファイルを調べたところ、次のエラーが表示されました。
hadoop - Hadoop: 中間マージに失敗しました
私は奇妙な問題に遭遇しています。大規模なデータセット (1 TB を超える圧縮テキスト ファイル) に対して Hadoop ジョブを実行すると、いくつかの削減タスクが失敗し、次のようなスタック トレースが表示されます。
すべてのレデューサーが失敗するわけではありません。他の失敗を見る前に、いくつかは成功することがよくあります。ご覧のとおり、スタック トレースは常にIPAndIPCookieCount.readFields()
インメモリ マージ ステージから発生しているように見えますが、常に の同じ部分から発生しているとは限りませんreadFields
。
このジョブは、より小さいデータセット (サイズの約 1/30) で実行すると成功します。ジョブへの入力とほぼ同じ数の出力がありますが、各出力レコードは短くなります。このジョブは、基本的に二次ソートの実装です。
CDH3 Hadoop ディストリビューションを使用しています。
これが私のカスタムWritableComparable
実装です:
メソッドは非常に単純で、このreadFields
クラスでは問題は見られません。さらに、他の人が本質的に同じスタック トレースを取得しているのを見てきました。
- http://lucene.472066.n3.nabble.com/Reduce-Copier-Failed-td2120228.html
- https://groups.google.com/a/cloudera.org/group/cdh-user/browse_thread/thread/3544da912bf66506
- http://www.listware.net/201010/hadoop-common-user/70382-merging-of-the-local-fs-files-threw-an-exception-javaioioexception-javalangruntimeexception-javaioeofexception.html
- http://mail-archives.apache.org/mod_mbox/hadoop-mapreduce-user/201101.mbox/%3CSNT135-w58DBCAAC6970BB35B50B9AB7FD0@phx.gbl%3E
- http://web.archiveorange.com/archive/v/5nvvZTgeqwCRQ3F9vEzI
この背後にある問題を実際に理解している人は誰もいなかったようです。最後の 2 つは、これがメモリの問題である可能性を示唆しているようです (ただし、これらのスタック トレースはOutOfMemoryException
s ではありません)。そのリンク リストの最後から 2 番目の投稿のように、リデューサーの数をもっと高く (最大 999) 設定しようとしましたが、それでも失敗します。クラスターを再構成する必要があるため、タスクを削減するためにより多くのメモリを割り当てることは (まだ) 試みていません。
これは Hadoop のバグですか? それとも私は何か間違ったことをしていますか?
編集:私のデータは日ごとに分割されています。ジョブを 7 回 (毎日 1 回) 実行すると、7 回すべてが完了します。7 日間にわたって 1 つのジョブを実行すると、失敗します。7 日間すべてにわたる大きなレポートには、小さなレポートとまったく同じキーが表示されますが (全体として)、明らかに同じ順序ではなく、同じリデューサーなどで表示されます。