Hadoop から大量のデータを取得するクライアント スクリプトがあるとします。Hadoop のどの機能が、取得したデータを見て、データの欠落部分を要求 (指摘) し、その欠落部分を読み取るためだけに特定の要求を行うのに役立ちますか? この機能は datanode map または reduce の一部ですか?
ありがとう
Hadoop から大量のデータを取得するクライアント スクリプトがあるとします。Hadoop のどの機能が、取得したデータを見て、データの欠落部分を要求 (指摘) し、その欠落部分を読み取るためだけに特定の要求を行うのに役立ちますか? この機能は datanode map または reduce の一部ですか?
ありがとう
これを達成するための直接的な方法はありません。スクリプトがデータを取得して HDFS に書き込むと、それは単なる別のデータになります。残りのデータとは関係ありません。比較したいデータと一緒にそれを読んで、ニーズに合った比較ロジックを書いて自分で比較する必要があります。
まず、MultipleInputsを見てください。
PS : これを行う何かを見つけることができる場合は、私たちと共有してください。とても重宝します。どうもありがとう。