Hadoopdfsでファイルを作成するコードがあります。これらのファイルに付けられた名前は増分です(1、2、3など)。これは、作成されたファイルの適切な順序を維持するために行われます。しかし、ファイルを見ると、これらのファイルはランダムな順序で表示されています(ファイルサイズの違いが原因である可能性があります)。
また、入力ディレクトリパスを取り、その下のすべてのファイルを読み取るコードもあります。しかし、私の懸念は、ファイルが書き込まれるのと同じ順序で読み取られないことです(UIに表示されるのと同じ順序で読み戻されます)。
これをどのように達成する必要がありますか?順序を維持するためにファイル自体を書き込んでいるときにできることはありますか、それとも読み取り中に処理する必要がありますか?
org.apache.hadoop.fs.FileStatus.getModificationTime()は、ファイルが最後に変更された時刻を示す長い値を示します。これを使用してファイルを注文できます。しかし、ファイルがいくつもある可能性があるため、実行可能な解決策ではないようです。
これを実行したり、順序を保持したりできるAPIクラスはありますか?