1

シナリオ:

SQlServerからHDFSにデータをインポートしました。次のように複数のファイルのHDFSディレクトリに保存されたデータ。

part-m-00000
part-m-00001
part-m-00002part
-m-00003

質問:

私の質問は、HDFSディレクトリからこの保存されたデータを読み取るときに、すべてのファイル(part-m-00000,01,02,03)または単にを読み取る必要があるということですpart-m-00000。そのデータを読んだときに、HDFS内のデータが少し欠落していることがわかったからです。それで、それは起こるのでしょうか、それとも私が見逃したことでしょうか?

4

3 に答える 3

2

00000 だけでなく、すべてのファイルを読み取る必要があります。複数のファイルがある理由は、sqoop が map-reduce 方式で動作し、「インポート」作業を複数の部分に分割するためです。各部分からの出力は、別のファイルに入れられます。

RL

于 2012-02-15T09:44:48.980 に答える