問題タブ [hadoop-yarn]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3674 問題

0 投票する

2 に答える

192 参照

hadoop - Hadoop に複数のレデューサーを使用してアプリケーションを実行させる

コードに次の行を含む Hadoop Map-reduce アプリケーションがあります (レデューサーの数を 1 に設定します)。

このアプリケーションを複数のレデューサーで実行したいので、次の XML コードを追加してみました$HADOOP_CONF_DIR/mapred-site.xml

ただし、コードは引き続き 1 つのレデューサーで実行されます。Hadoop アプリケーションを強制的に 2 つのレデューサーで実行する方法はありますか?それとも、アプリケーションコードの優先度が常に高くなりますか?

2013-12-20T04:16:20.557

0 投票する

3 に答える

2381 参照

hadoop - Hadoop レデューサーの数構成オプション優先度

削減数を設定するための次の 3 つのオプションの優先順位は何ですか? つまり、3つすべてが設定されている場合、どれが考慮されますか?

オプション1：

オプション 2:

オプション 3:

hadoop configuration mapreduce reduce hadoop-yarn

2013-12-20T04:44:31.283

0 投票する

2 に答える

2541 参照

java - map reduce プログラムで PDF ファイルを解析するには?

私のhadoop 2.2.0プログラムでPDFファイルを解析したいのですが、これを見つけて、それが言うことに従いました。今まで、次の3つのクラスがあります。

PDFWordCount: map 関数と reduce 関数を含むメインクラス。(ネイティブの Hadoop ワードカウントサンプルと同様ですが、代わりにクラスTextInputFormatを使用しました。PDFInputFormat
PDFRecordReader extends RecordReader<LongWritable, Text>：ここでの主な作業はどれですか。特にinitialize、より多くの説明のためにここに関数を配置します。

system.out.println(デバッグ用に s を見ることができます。このメソッドはへの変換genericSplitに失敗しますFileSplit。コンソールに最後に表示されるのは、次のとおりです。

これはgenericSplit.toString()
PDFInputFormat extends FileInputFormat<LongWritable, Text>:メソッドで作成するだけ new PDFRecordReaderです。createRecordReader

私の間違いを知りたいですか？

追加のクラスか何かが必要ですか？

java pdf hadoop hadoop-yarn

2013-12-24T10:09:46.330

0 投票する

0 に答える

249 参照

hadoop - 単語カウントにおける Hadoop パフォーマンスの低下 - スケジューリングの問題

m1.large マシンを使用して、ec2 で 16 ノードの Hadoop クラスターを実行しています。Hadoop が実行している愚かなスケジューリングが原因で、パフォーマンスの問題に直面しています。糸で hadoop-2.2.0 を使用しています。

正確な問題は次のとおりです。

クラスターで wordcount プログラムを実行しています。ワードカウントを実行する必要があるデータ全体が 4 GB あります。私は現在、4つのレデューサーで試しています。残念ながら、4 つのレデューサーはすべて同じマシン上でスケジュールされているため、パフォーマンスが大幅に低下しています。これを回避できる方法はありますか。削減タスクの負荷分散を改善するスケジューリングポリシーはありますか。

PS: Hadoop が高性能を目的としていないことは理解していますが、特定の map reduce プログラムをベンチマークする必要があり、スケジューリングが不十分であるとベンチマークに大きな影響を与えます。

ありがとう

hadoop mapreduce hadoop-yarn

2013-12-25T00:53:02.393

0 投票する

1 に答える

1380 参照

java - Hadoop 2.2 の仮想メモリをデフォルトの 2.1 GB より大きく変更できない

8 GB RAM を搭載した CentsOS 6.4 のラップトップで、疑似分散モードで Hadoop 2.2 を実行しています。

ジョブを送信するたびに、以下のように、仮想メモリの使用量が超過したというエラーが表示されます。

yarn-site.xml の比率 yarn.nodenamager.vmem-pmem-ratio を 10 (10x 1GB) に変更しましたが、エラーメッセージに見られるように、仮想メモリはデフォルトの 2.1 GB を超えて増加していません。以下で、コンテナが強制終了されています。

他に変更が必要な設定があれば教えてください。前もって感謝します！

エラーメッセージ：

java hadoop hadoop-yarn

2014-01-02T04:45:48.823

1 2 3 4 5 6 7 8 9 10

問題タブ [hadoop-yarn]

hadoop - Hadoop に複数のレデューサーを使用してアプリケーションを実行させる

hadoop - Hadoop レデューサーの数 構成オプション 優先度

java - map reduce プログラムで PDF ファイルを解析するには?

hadoop - 単語カウントにおける Hadoop パフォーマンスの低下 - スケジューリングの問題

java - Hadoop 2.2 の仮想メモリをデフォルトの 2.1 GB より大きく変更できない

Reference

hadoop - Hadoop レデューサーの数構成オプション優先度