Hadoop では、大きな入力ファイルが小さなファイルに分割され、map 関数によって異なるノードで処理されることを理解しています。また、s をカスタマイズできることも知りましたInputSplit
。私が知りたいのは、 で次のタイプのカスタマイズが可能かどうかですInputSplit
。
大きな入力ファイルが Hadoop に送られてきます。ファイルのサブセット、つまりファイル内の一連の行をすべての入力分割に合わせたいと考えています。つまり、ファイルがどのように分割されているかに関係なく、大きなファイルのすべてのデータ チャンクにこれらの行のセットが含まれている必要があります。
私の質問をより明確にするために、入力ファイルの一部(たとえばA
)をファイルコンテンツの残りの部分と比較する必要がある場合など、関数InputSplit
に送られるすべての s には、この部分が必要です比較。これについて私を親切に案内してください。map
A