シナリオ:
SQlServerからHDFSにデータをインポートしました。次のように複数のファイルのHDFSディレクトリに保存されたデータ。
part-m-00000
part-m-00001
part-m-00002part
-m-00003
質問:
私の質問は、HDFSディレクトリからこの保存されたデータを読み取るときに、すべてのファイル(part-m-00000,01,02,03
)または単にを読み取る必要があるということですpart-m-00000
。そのデータを読んだときに、HDFS内のデータが少し欠落していることがわかったからです。それで、それは起こるのでしょうか、それとも私が見逃したことでしょうか?