問題タブ [hadoop-yarn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop に複数のレデューサーを使用してアプリケーションを実行させる
コードに次の行を含む Hadoop Map-reduce アプリケーションがあります (レデューサーの数を 1 に設定します)。
このアプリケーションを複数のレデューサーで実行したいので、次の XML コードを追加してみました$HADOOP_CONF_DIR/mapred-site.xml
ただし、コードは引き続き 1 つのレデューサーで実行されます。Hadoop アプリケーションを強制的に 2 つのレデューサーで実行する方法はありますか?それとも、アプリケーション コードの優先度が常に高くなりますか?
hadoop - Hadoop レデューサーの数 構成オプション 優先度
削減数を設定するための次の 3 つのオプションの優先順位は何ですか? つまり、3つすべてが設定されている場合、どれが考慮されますか?
オプション1:
オプション 2:
オプション 3:
java - map reduce プログラムで PDF ファイルを解析するには?
私のhadoop 2.2.0プログラムでPDFファイルを解析したいのですが、これを見つけて、それが言うことに従いました。今まで、次の3つのクラスがあります。
PDFWordCount
: map 関数と reduce 関数を含むメイン クラス。(ネイティブの Hadoop ワードカウントサンプルと同様ですが、代わりにクラスTextInputFormat
を使用しました。PDFInputFormat
PDFRecordReader extends RecordReader<LongWritable, Text>
:ここでの主な作業はどれですか。特にinitialize
、より多くの説明のためにここに関数を配置します。system.out.println
(デバッグ用に s を見ることができます。このメソッドは への変換genericSplit
に失敗しますFileSplit
。コンソールに最後に表示されるのは、次のとおりです。これは
genericSplit.toString()
PDFInputFormat extends FileInputFormat<LongWritable, Text>
:メソッドで作成するだけnew PDFRecordReader
です。createRecordReader
私の間違いを知りたいですか?
追加のクラスか何かが必要ですか?
hadoop - 単語カウントにおける Hadoop パフォーマンスの低下 - スケジューリングの問題
m1.large マシンを使用して、ec2 で 16 ノードの Hadoop クラスターを実行しています。Hadoop が実行している愚かなスケジューリングが原因で、パフォーマンスの問題に直面しています。糸で hadoop-2.2.0 を使用しています。
正確な問題は次のとおりです。
クラスターで wordcount プログラムを実行しています。ワードカウントを実行する必要があるデータ全体が 4 GB あります。私は現在、4つのレデューサーで試しています。残念ながら、4 つのレデューサーはすべて同じマシン上でスケジュールされているため、パフォーマンスが大幅に低下しています。これを回避できる方法はありますか。削減タスクの負荷分散を改善するスケジューリング ポリシーはありますか。
PS: Hadoop が高性能を目的としていないことは理解していますが、特定の map reduce プログラムをベンチマークする必要があり、スケジューリングが不十分であるとベンチマークに大きな影響を与えます。
ありがとう
java - Hadoop 2.2 の仮想メモリをデフォルトの 2.1 GB より大きく変更できない
8 GB RAM を搭載した CentsOS 6.4 のラップトップで、疑似分散モードで Hadoop 2.2 を実行しています。
ジョブを送信するたびに、以下のように、仮想メモリの使用量が超過したというエラーが表示されます。
yarn-site.xml の比率 yarn.nodenamager.vmem-pmem-ratio を 10 (10x 1GB) に変更しましたが、エラー メッセージに見られるように、仮想メモリはデフォルトの 2.1 GB を超えて増加していません。以下で、コンテナが強制終了されています。
他に変更が必要な設定があれば教えてください。前もって感謝します!
エラーメッセージ :