問題タブ [input-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
83 参照

hadoop - Hadoop が特別な MapReduce タスクでファイルを分割しないようにするにはどうすればよいですか?

  1. Hadoop で処理するファイルがあり、ファイルのサイズが HDFS のブロック サイズよりも小さいことがわかっています。これは、ファイルが分割されないことを保証し、デフォルトのファイルでは分割されないため、InputSplit を記述する必要はありませんか?

  2. SequenceFileOutputFormat (またはその他の出力形式) で保存されたファイルがブロック サイズよりも大きい場合、1 つのキーと値のペアのみで構成されます。これは、ファイル ブロックが同じノードに格納され (レプリケートされたコピーを除く)、MapReduce タスクがそれらを取得するために多くの時間を無駄にしないことを意味しますか? これは、キーが分割されない (キー サイズがブロック サイズよりも小さく、キーが 1 つしかない) ため、独自の inputSplit を記述する必要がないことを意味しますか?

0 投票する
1 に答える
48 参照

hadoop - ファイル サイズが 64MB ではないのに、チャンク ファイルが分割されるのはなぜですか?

Flumeを使用してTwitterデータをhdfsにダウンロードしていました。2 GB を超えるデータがありますが、チャンク ファイルの分割は 64 MB 未満です。つまり、1 番目のファイルは 300 KB、2 番目のファイルは 566 KB です。なぜそれが起こっているのですか?

0 投票する
2 に答える
2005 参照

java - Hadoop MapReduce RecordReader の実装は必要ですか?

Hadoop MapReduce InputFormatインターフェイスの Apache ドキュメントから:

"入力サイズに基づく [L] 論理分割は、多くのアプリケーションにとって不十分です。これは、レコード境界を尊重する必要があるためです。そのような場合、アプリケーションは、レコード境界を尊重し、レコードを提示する責任があるRecordReaderも実装する必要があります。個々のタスクに対する論理的なInputSplitの指向ビュー。"

WordCountサンプル アプリケーションは、入力サイズに基づく論理分割が不十分なものですか? その場合、RecordReader の実装はソース コードのどこにありますか?

0 投票する
1 に答える
55 参照

hadoop - Hadoop の InputSplit の getLocations() から返されたホスト名で Mapper が実行されない

カスタム入力分割を計算するために Hadoopのクラスを拡張しましたが、オーバーライドされたgetLocations()InputSplitの文字列として特定の HostIP (つまり、データノード IP) を返している間、それに対するマップ タスクはその HostIP では実行されず、代わりに実行されます。その特定の HostIP で実行しない場合の問題は何でしょうか?

0 投票する
2 に答える
1494 参照

hadoop - Number of input splits is equals to number of mappers?

I am processing the the one file with the map reduce that file size is 1Gb and my default block size in HDFS is 64 MB so for this example how many input splits is there and how many mappers is there ?

0 投票する
2 に答える
423 参照

hadoop - Hadoop の入力分割とブロック

私のファイル サイズは 100 MB で、デフォルトのブロック サイズは 64 MB です。入力分割サイズを設定しない場合、デフォルトの分割サイズはブロック サイズになります。分割サイズも 64 MB になりました。

この 100 MB のファイルを HDFS にロードすると、100 MB のファイルが 2 つのブロックに分割されます。つまり、64 MB と 36 MB です。たとえば、以下はサイズが 100 MB の詩の歌詞です。このデータを HDFS にロードすると、1 行目から 16 行目の半分までが 1 つの分割/ブロック ( 「It made the」まで) と 16 行目の残りの半分 (子供たちが笑ったり遊んだりする) として正確に 64 MB になるとします。 2 番目のブロック (36 MB) としてファイルの末尾。2 つのマッパー ジョブがあります。

私の質問は、最初のマッパーが 16 行目 (つまり、ブロック 1 の 16 行目) をブロックが行の半分しかないと見なす方法、または 2 番目のマッパーがブロック 2 の最初の行も半分を持っていると見なす方法です。この線。

または、1 行を分割するのではなく、64 MB を分割している間、hadoop は 16 行全体を考慮しますか?

0 投票する
1 に答える
1043 参照

add - 制限範囲のある Python 入力分割

Spyder Python 3.5 を使用してこのコードを記述し、実行してみます。ただし、このコードは機能しません。

" (1) var1,var2 = input("2 桁の a と b (0-9) を入力してください:").split(''); (2) TypeError: 'str' オブジェクトは呼び出し可能ではありません"

0 投票する
1 に答える
46 参照

hadoop - Hadoop の FileSplit のような分割はブロックを変更しますか?

最初の質問:スプリットが何らかの方法でブロックを変更するかどうかを知りたいです (つまり、サイズの変更、ブロックの別の場所への移動、新しいブロックの作成など)。

2 番目の質問:分割によってブロックが変更されることはないと思いますが、DataNodes が既に実行されており、ブロックを持っているため、分割が行われると思われるため、データの局所性またはラック認識のために、各 MapTask が存在し、クラスター上で実行される場所が指定されます。データを含むノードの横で MapTask を実行するように Hadoop に指示します。注意: InputSplit の内部には、この目的のために考えられる Location/Host があります。私が間違っている場合は修正してください

3 番目の質問:最初にタスクを実際に実行する前に、ブロックは MapTask のある場所に移動しますか、それとも MapTask はブロックがある場所 (つまり、DataNode の場所) に移動しますか?