input - Hadoop 読み取り入力が複数回分割される

Question

入力分割を複数回繰り返す必要があります。これが必要な理由は、この質問の範囲を超えています。私がそれを必要としているとしましょう (簡単な説明は、入力分割を複数回使用してデータ構造を設定する必要があり、分割が十分に大きいため、最初の反復後にメモリに格納できない可能性があるということです)

FileInputFormatとを拡張して分割を何度も提供するなど、多くのトリックを実行できると思いますがRecordReader、Hadoop でそれを行う「標準的な」方法があるかどうか疑問に思っていました。Hadoop でこれを達成するための標準的な方法を認識していませんが、おそらく何かを見逃していました。

何か案は？

score 0 · Accepted Answer

スプリットを通過する複数のパスの 1 つの間に、そのデータ構造に対して何をしたいですか? (検索、更新など)

そのアクションを以前の Hadoop ジョブ、おそらく豚のスクリプトで並列化しようとしましたか?

input - Hadoop 読み取り入力が複数回分割される

1 に答える 1

Related

Reference