問題タブ [hadoop-yarn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
192 参照

hadoop - Hadoop に複数のレデューサーを使用してアプリケーションを実行させる

コードに次の行を含む Hadoop Map-reduce アプリケーションがあります (レデューサーの数を 1 に設定します)。

このアプリケーションを複数のレデューサーで実行したいので、次の XML コードを追加してみました$HADOOP_CONF_DIR/mapred-site.xml

ただし、コードは引き続き 1 つのレデューサーで実行されます。Hadoop アプリケーションを強制的に 2 つのレデューサーで実行する方法はありますか?それとも、アプリケーション コードの優先度が常に高くなりますか?

0 投票する
3 に答える
2381 参照

hadoop - Hadoop レデューサーの数 構成オプション 優先度

削減数を設定するための次の 3 つのオプションの優先順位は何ですか? つまり、3つすべてが設定されている場合、どれが考慮されますか?

オプション1:

オプション 2:

オプション 3:

0 投票する
2 に答える
2541 参照

java - map reduce プログラムで PDF ファイルを解析するには?

私のhadoop 2.2.0プログラムでPDFファイルを解析したいのですが、これを見つけて、それが言うことに従いました。今まで、次の3つのクラスがあります。

  1. PDFWordCount: map 関数と reduce 関数を含むメイン クラス。(ネイティブの Hadoop ワードカウントサンプルと同様ですが、代わりにクラスTextInputFormatを使用しました。PDFInputFormat
  2. PDFRecordReader extends RecordReader<LongWritable, Text>ここでの主な作業はどれですか。特にinitialize、より多くの説明のためにここに関数を配置します。

    system.out.println(デバッグ用に s を見ることができます。このメソッドは への変換genericSplitに失敗しますFileSplit。コンソールに最後に表示されるのは、次のとおりです。

    これはgenericSplit.toString()

  3. PDFInputFormat extends FileInputFormat<LongWritable, Text>:メソッドで作成するだけ new PDFRecordReaderです。createRecordReader

私の間違いを知りたいですか?

追加のクラスか何かが必要ですか?

0 投票する
0 に答える
249 参照

hadoop - 単語カウントにおける Hadoop パフォーマンスの低下 - スケジューリングの問題

m1.large マシンを使用して、ec2 で 16 ノードの Hadoop クラスターを実行しています。Hadoop が実行している愚かなスケジューリングが原因で、パフォーマンスの問題に直面しています。糸で hadoop-2.2.0 を使用しています。

正確な問題は次のとおりです。

クラスターで wordcount プログラムを実行しています。ワードカウントを実行する必要があるデータ全体が 4 GB あります。私は現在、4つのレデューサーで試しています。残念ながら、4 つのレデューサーはすべて同じマシン上でスケジュールされているため、パフォーマンスが大幅に低下しています。これを回避できる方法はありますか。削減タスクの負荷分散を改善するスケジューリング ポリシーはありますか。

PS: Hadoop が高性能を目的としていないことは理解していますが、特定の map reduce プログラムをベンチマークする必要があり、スケジューリングが不十分であるとベンチマークに大きな影響を与えます。

ありがとう

0 投票する
1 に答える
1380 参照

java - Hadoop 2.2 の仮想メモリをデフォルトの 2.1 GB より大きく変更できない

8 GB RAM を搭載した CentsOS 6.4 のラップトップで、疑似分散モードで Hadoop 2.2 を実行しています。

ジョブを送信するたびに、以下のように、仮想メモリの使用量が超過したというエラーが表示されます。

yarn-site.xml の比率 yarn.nodenamager.vmem-pmem-ratio を 10 (10x 1GB) に変更しましたが、エラー メッセージに見られるように、仮想メモリはデフォルトの 2.1 GB を超えて増加していません。以下で、コンテナが強制終了されています。

他に変更が必要な設定があれば教えてください。前もって感謝します!

エラーメッセージ :