“hadoop2”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

434 参照

java - Hadoop の分散キャッシュファイルプログラムが出力を生成しない

ファイルから特許データを読み取り、他の国がその特許を引用しているかどうかを確認することを目的とする単純なプログラムを設計しようとして'Hadoop in Action'い'chuck Lam'ますadvanced map/reduce programming。

セットアップした Hadoop ディストリビューションはで、を使用Local Nodeしてでプログラムを実行しています。Windows environmentcygwin

http://www.nber.org/patents/これは、ファイル :apat63_99.txtおよびをダウンロードした URLですcite75_99.txt。

'apat63_99.txt'分散キャッシュファイルとして使用しており、コマンドラインパラメーターから渡し'cite75_99.txt'たフォルダー内にあります。input

問題は、プログラムが出力を生成していないことです。表示されている出力ファイルにはデータが含まれていません。

マッパーフェーズとリデューサーフェーズの出力を試しましたが、どちらも空白です。

このタスクのために開発したコードは次のとおりです。

ツールはEclipseで、Hadoop's version使用しているものはです1.2.1。

これらは、ジョブを実行するためのコマンドラインパラメーターです。

これは、プログラムの実行中に生成されるトレースです。

重要な情報を見逃した場合に備えて、どこが間違っているのかお知らせください。

感謝と敬意

2014-06-22T07:27:37.680

0 投票する

2 に答える

5656 参照

hadoop - yarn (MRv2) または mapred (MRv1) 以外のユーザーによって送信された場合、Hadoop ジョブは失敗します。

LocalFileSystem とペアになった MRv1 (CDH5) を実行するテストクラスターを実行しています。ジョブを実行できる唯一のユーザーは mapred です (mapred は jobtracker/tasktracker デーモンを開始するユーザーであるため)。他のユーザーとしてジョブを送信すると、jobtracker/tasktracker が .staging ディレクトリで job.jar を見つけられないため、ジョブは失敗します。

LocalFileSystem と組み合わせると、YARN (MRv2) とまったく同じ問題が発生します。つまり、「yarn」以外のユーザーがジョブを送信すると、アプリケーションマスターは .staging ディレクトリの下で job.jar を見つけることができません。

ジョブを送信したユーザーの .staging ディレクトリを調べると、job.jar が .staging// ディレクトリの下に存在することがわかりましたが、および .staging ディレクトリの権限は 700 (drwx------) に設定されており、したがって、アプリケーションマスター/タスクトラッカーは、job.jar およびサポートファイルにアクセスできません。

実稼働セットアップで OCFS とペアになった Hadoop プロジェクトの MapReduce 部分のみを使用するため、LocalFileSystem でテストクラスターを実行しています。

この点での支援は非常に役立ちます。

hadoop hadoop2

2014-06-24T15:10:12.457

0 投票する

1 に答える

1275 参照

hadoop - Hadoop 2 + YARN で # マッパーと # レデューサーを同時に計算する方法は?

いつか検索したところ、hadoop2 + yarn を使用する MapReduce クラスターには、次の数の同時マップがあり、ノードごとに削減されることがわかりました。

並行マップ # = yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb 並行リデュース # = yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memory.mb

ただし、次の構成で 10 台のマシンを含むクラスターをセットアップしました。

ただし、クラスターがセットアップされた後、hadoop はクラスター全体に対して 6 つのコンテナーを許可します。私は何を忘れていますか？私は何を間違っていますか？

hadoop hadoop-yarn hadoop2

2014-06-25T17:12:21.830

0 投票する

0 に答える

101 参照

java - hadoop-env.sh に関する質問

私はエラーに直面しています:Javaヒープスペースとエラー:GCオーバーヘッド制限を超えました

それで、hadoop-env.sh を調べ始めました。

これまでのところ私が理解していることです。間違っている場合は修正してください。

これにより、データノードで datanode デーモンと tasktracker デーモンが呼び出され、それぞれに 7GB のメモリが割り当てられます (datanode(7GB)+ tasktracker(7GB) = 14GB)。

と

したがって、これは 1GB のメモリで 9 つの子 JVM を呼び出すので、合計で 9GB になります。

しかし、tasktracker は 7GB のメモリで呼び出されるため、競合が発生します。tasktracker と tasktracker によって呼び出される子 JVMS の最大メモリは 7GB ですが、9G を消費しています。

ヒープ領域エラーが発生しましたが、私の計算は正しいですか?

java hadoop hadoop-streaming hadoop-partitioning hadoop2

2014-06-27T05:31:02.047

0 投票する

0 に答える

165 参照

hadoop - Hadoop shutdown_msg

Windows 7 に Hadoop をインストールし、単一ノードに構成しました。

yarn.cmd または hdfs.cmd を実行すると、次のメッセージが表示されます。

SHUTDOWN_MSG: ユーザー名/IP で NodeManager をシャットダウンしています

ありがとうございました

hadoop hadoop2

2014-06-27T09:47:02.280

0 投票する

1 に答える

561 参照

hadoop - バイナリのHadoop最新バージョン?

今日 (2014 年 6 月 27 日) の時点で Hadoopの最新の安定バージョンをダウンロードしようとしたとき、bin.tar.gz利用できるものがないことがわかりました。以下が見えます。どちらをダウンロードすればよいかわかりません。

まず、上記のすべてのファイルの違いは何ですか。ただのようsrc.tar.gzです。どちらで作業するのが好ましいですか？以前は、次のようにforを使用していました。しかし、それはバージョンでは利用できません。何故ですか？19Mtar.gz is 104Mbin.tar.gz1.2.22.2.0

1.2.XI 用bin.tar.gz

hadoop hadoop2

2014-06-27T19:41:09.550

0 投票する

1 に答える

379 参照

java - MapReduce ジョブで StanfordCoreNLP API を呼び出す

MapReduce を使用して多数のドキュメントを処理しようとしています。アイデアは、マッパーでファイルをドキュメントに分割し、リデューサーフェーズでスタンフォード coreNLP アノテーターを適用することです。

「tokenize、ssplit、pos、lemma、ner」のかなり単純な（標準）パイプラインがあり、レデューサーは、これらのアノテーターをレデューサーによって渡された値に適用し、アノテーションを返す関数を呼び出すだけです（文字列のリストとして）、ただし、生成される出力はガベージです。

マッパー内からアノテーション関数を呼び出すと、ジョブが期待される出力を返すことを観察しましたが、それは並列処理全体に勝っています。また、レデューサーで取得した値を無視し、ダミー文字列にアノテーターを適用すると、ジョブは期待される出力を返します。

これはおそらく、プロセスにスレッドセーフの問題があることを示していますが、注釈関数が同期され、パイプラインがプライベートファイナルである場所を特定できません。

誰かがこれを解決する方法についていくつかの指針を提供できますか?

-Angshu

編集：

これは私のレデューサーがどのように見えるかです。これがより明確になることを願っています

これは抽出を取得するためのコードです。

java mapreduce nlp stanford-nlp hadoop2

2014-06-28T14:51:25.117

0 投票する

1 に答える

781 参照

hadoop - Hadoop 2.2.0 で、データノードが起動できませんでした

皆さん、Hadoop クラスターを構築するときに少し問題があります。
ノードに CentOS 6.5、java1.7.60、および hadoop 2.2.0 をインストールします。

マスターと3つのスレーブを構築したいこの
ように構築しようとしますしかし、これの最後に、namenodeとdatanodeを起動しようとします

私の /etc/hosts は次のようになります:

次のように入力します。

start-dfs.sh と start-yarn.sh を発行してみます。

jps と入力します。

私はこのように見えるだけで、DataNode、NodeManager、ResourceManger...などはありませんでした。設定するとどこが間違っていますか? 誰でも私に何かを提案できますか、ありがとう!

hadoop centos6 hadoop2

2014-07-01T09:03:05.023

0 投票する

2 に答える

6605 参照

hadoop-yarn - mapreduce Hadoop ジョブの実行時に糸 UI にアプリケーションが表示されませんか?

を使用してHadoop2.2います。自分の仕事が無事に完了したことがわかります。ファイルシステムを参照して出力を見つけることができます。しかし、ブラウジングするhttp://NNode:8088/cluster/appsと、これまでに完了したアプリケーションが表示されません (3 つの wordcount ジョブを実行しましたが、ここには表示されません)。

考慮する必要がある構成はありますか?

ここに画像の説明を入力

こちらがyarn-site.xml

ここにあるmapred-site.xml：

ジョブ履歴サーバーも実行しています：

hadoop-yarn hadoop2

2014-07-01T20:01:42.857

問題タブ [hadoop2]

Reference