問題タブ [hadoop2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop の分散キャッシュ ファイル プログラムが出力を生成しない
ファイルから特許データを読み取り、他の国がその特許を引用しているかどうかを確認することを目的とする単純なプログラムを設計しようとして'Hadoop in Action'
い'chuck Lam'
ますadvanced map/reduce programming
。
セットアップした Hadoop ディストリビューションはで、 を使用Local Node
して でプログラムを実行しています。Windows environment
cygwin
http://www.nber.org/patents/
これは、ファイル :apat63_99.txt
およびをダウンロードした URLですcite75_99.txt
。
'apat63_99.txt'
分散キャッシュ ファイルとして使用しており、コマンド ライン パラメーターから渡し'cite75_99.txt'
たフォルダー内にあります。input
問題は、プログラムが出力を生成していないことです。表示されている出力ファイルにはデータが含まれていません。
マッパー フェーズとリデューサー フェーズの出力を試しましたが、どちらも空白です。
このタスクのために開発したコードは次のとおりです。
ツールはEclipse
で、Hadoop's version
使用しているものは です1.2.1
。
これらは、ジョブを実行するためのコマンド ライン パラメーターです。
これは、プログラムの実行中に生成されるトレースです。
重要な情報を見逃した場合に備えて、どこが間違っているのかお知らせください。
感謝と敬意
hadoop - yarn (MRv2) または mapred (MRv1) 以外のユーザーによって送信された場合、Hadoop ジョブは失敗します。
LocalFileSystem とペアになった MRv1 (CDH5) を実行するテスト クラスターを実行しています。ジョブを実行できる唯一のユーザーは mapred です (mapred は jobtracker/tasktracker デーモンを開始するユーザーであるため)。他のユーザーとしてジョブを送信すると、jobtracker/tasktracker が .staging ディレクトリで job.jar を見つけられないため、ジョブは失敗します。
LocalFileSystem と組み合わせると、YARN (MRv2) とまったく同じ問題が発生します。つまり、「yarn」以外のユーザーがジョブを送信すると、アプリケーション マスターは .staging ディレクトリの下で job.jar を見つけることができません。
ジョブを送信したユーザーの .staging ディレクトリを調べると、job.jar が .staging// ディレクトリの下に存在することがわかりましたが、 および .staging ディレクトリの権限は 700 (drwx------) に設定されており、したがって、アプリケーション マスター/タスクトラッカーは、job.jar およびサポート ファイルにアクセスできません。
実稼働セットアップで OCFS とペアになった Hadoop プロジェクトの MapReduce 部分のみを使用するため、LocalFileSystem でテスト クラスターを実行しています。
この点での支援は非常に役立ちます。
hadoop - Hadoop 2 + YARN で # マッパーと # レデューサーを同時に計算する方法は?
いつか検索したところ、hadoop2 + yarn を使用する MapReduce クラスターには、次の数の同時マップがあり、ノードごとに削減されることがわかりました。
並行マップ # = yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb 並行リデュース # = yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memory.mb
ただし、次の構成で 10 台のマシンを含むクラスターをセットアップしました。
ただし、クラスターがセットアップされた後、hadoop はクラスター全体に対して 6 つのコンテナーを許可します。私は何を忘れていますか?私は何を間違っていますか?
java - hadoop-env.sh に関する質問
私はエラーに直面しています:Javaヒープスペースとエラー:GCオーバーヘッド制限を超えました
それで、hadoop-env.sh を調べ始めました。
これまでのところ私が理解していることです。間違っている場合は修正してください。
これにより、データノードで datanode デーモンと tasktracker デーモンが呼び出され、それぞれに 7GB のメモリが割り当てられます (datanode(7GB)+ tasktracker(7GB) = 14GB)。
と
したがって、これは 1GB のメモリで 9 つの子 JVM を呼び出すので、合計で 9GB になります。
しかし、tasktracker は 7GB のメモリで呼び出されるため、競合が発生します。tasktracker と tasktracker によって呼び出される子 JVMS の最大メモリは 7GB ですが、9G を消費しています。
ヒープ領域エラーが発生しましたが、私の計算は正しいですか?
hadoop - Hadoop shutdown_msg
Windows 7 に Hadoop をインストールし、単一ノードに構成しました。
yarn.cmd または hdfs.cmd を実行すると、次のメッセージが表示されます。
SHUTDOWN_MSG: ユーザー名/IP で NodeManager をシャットダウンしています
ありがとうございました
hadoop - バイナリのHadoop最新バージョン?
今日 (2014 年 6 月 27 日) の時点で Hadoopの最新の安定バージョンをダウンロードしようとしたとき、bin.tar.gz
利用できるものがないことがわかりました。以下が見えます。どちらをダウンロードすればよいかわかりません。
まず、上記のすべてのファイルの違いは何ですか。ただのようsrc.tar.gz
です。どちらで作業するのが好ましいですか?以前は、次のようにforを使用していました。しかし、それはバージョンでは利用できません。何故ですか?19M
tar.gz is 104M
bin.tar.gz
1.2.2
2.2.0
1.2.XI 用bin.tar.gz
java - MapReduce ジョブで StanfordCoreNLP API を呼び出す
MapReduce を使用して多数のドキュメントを処理しようとしています。アイデアは、マッパーでファイルをドキュメントに分割し、リデューサー フェーズでスタンフォード coreNLP アノテーターを適用することです。
「tokenize、ssplit、pos、lemma、ner」のかなり単純な(標準)パイプラインがあり、レデューサーは、これらのアノテーターをレデューサーによって渡された値に適用し、アノテーションを返す関数を呼び出すだけです(文字列のリストとして) 、ただし、生成される出力はガベージです。
マッパー内からアノテーション関数を呼び出すと、ジョブが期待される出力を返すことを観察しましたが、それは並列処理全体に勝っています。また、レデューサーで取得した値を無視し、ダミー文字列にアノテーターを適用すると、ジョブは期待される出力を返します。
これはおそらく、プロセスにスレッド セーフの問題があることを示していますが、注釈関数が同期され、パイプラインがプライベート ファイナルである場所を特定できません。
誰かがこれを解決する方法についていくつかの指針を提供できますか?
-Angshu
編集:
これは私のレデューサーがどのように見えるかです。これがより明確になることを願っています
これは抽出を取得するためのコードです。
hadoop - Hadoop 2.2.0 で、データノードが起動できませんでした
皆さん、Hadoop クラスターを構築するときに少し問題があります。
ノードに CentOS 6.5、java1.7.60、および hadoop 2.2.0 をインストールします。
マスターと3つのスレーブを構築したいこの
ように構築しようとします
しかし、これの最後に、namenodeとdatanodeを起動しようとします
私の /etc/hosts は次のようになります:
次のように入力します。
start-dfs.sh と start-yarn.sh を発行してみます。
jps と入力します。
私はこのように見えるだけで、DataNode、NodeManager、ResourceManger...などはありませんでした。設定するとどこが間違っていますか? 誰でも私に何かを提案できますか、ありがとう!
hadoop-yarn - mapreduce Hadoop ジョブの実行時に糸 UI にアプリケーションが表示されませんか?
を使用してHadoop2.2
います。自分の仕事が無事に完了したことがわかります。ファイルシステムを参照して出力を見つけることができます。しかし、ブラウジングするhttp://NNode:8088/cluster/apps
と、これまでに完了したアプリケーションが表示されません (3 つの wordcount ジョブを実行しましたが、ここには表示されません)。
考慮する必要がある構成はありますか?
こちらがyarn-site.xml
ここにあるmapred-site.xml
:
ジョブ履歴サーバーも実行しています: