圧縮された tar ファイルが多数あり、各 tar 自体に複数のファイルが含まれています。これらのファイルを抽出し、hadoop または同様の手法を使用して処理を高速化したいと考えています。この種の問題のためのツールはありますか?私の知る限り、hadoop や、spark や flink などの同様のフレームワークは、ファイルを直接使用せず、ファイルシステムに直接アクセスすることもできません。また、抽出したファイルの基本的な名前を変更し、適切なディレクトリに移動したいと考えています。
すべての tar ファイルのリストを作成するソリューションをイメージできます。次に、このリストがマッパーに渡され、1 つのマッパーがリストから 1 つのファイルを抽出します。これは合理的なアプローチですか?