0

私はhadoopが初めてです。研究したことを確認し、仮説について質問したい。

これがアイデアです。たとえば、hadoop の 5 つのノードでは、1 つがマスターになる必要があります。各スレーブ ノードには 1 つの MR タスクがあります。- conf/mapred-site.xml で設定。

これは私が Hadoop の例を実行したことを調べたものです。MRは自動的に単語数でマップタスク数を決定します。

Q1. ブロックサイズオプションなどに関連していますか?

プロパティによって変更できます。PI とランダムテキストライターを実行していたときに変更されました。

Q2. 他の MR プログラムを変更することは可能ですか? つまり、単語数では、プロパティがマップ タスクの数に影響します。

これは別のアイデアです。この場合、4 つのスレーブと 2 つのマップ タスクを取得しました。つまり、一度に 2 つのノードを実行できます。

あくまでも仮説です。JT は 2 つのマップ タスクを作成し、推定時間は 1 時間以上です。演奏にはもったいないです。2 つのノードが実行されていません。マップに 4 つのノードを使用すると、より高速になる可能性があります。ジョブの実行時に既存のマップを分離したいと考えています。

Q3. この仮説の可能性。可能であれば、参照を取得する方法を教えてください。

あなたのアドバイスを待っています。

皆さん、ありがとうございました。

4

2 に答える 2

0

最初の質問については、ブロック サイズとファイルの数に関連しています。たとえば、3.7 GB のデータがあり、512 MB のデータ サイズがある場合、このために 8 つのマップ タスクが作成されます。さらに、入力ディレクトリ内のファイル番号に直接関連しています。ディレクトリ内のファイルごとに、少なくとも 1 つのマップ タスクが作成されます。また、マップ タスクをプログラムで増やすこともできます (つまり、減らすことはできません)。

于 2013-03-13T11:38:47.323 に答える
-1

答えてくれてありがとう。

まず、ファイルの数について考えていませんでした。実は、MR が JVM で実行されているときの分割マップに興味がありました。いくつかの情報を見つけようとしましたが、役に立ちませんでした。

さて、Hadoop の設定、特に MR の mapred-site.xml の重要性についてはわかったので、設定についてもっと勉強します。

ありがとうございました。

于 2013-03-14T02:04:48.547 に答える