3

圧縮された tar ファイルが多数あり、各 tar 自体に複数のファイルが含まれています。これらのファイルを抽出し、hadoop または同様の手法を使用して処理を高速化したいと考えています。この種の問題のためのツールはありますか?私の知る限り、hadoop や、spark や flink などの同様のフレームワークは、ファイルを直接使用せず、ファイルシステムに直接アクセスすることもできません。また、抽出したファイルの基本的な名前を変更し、適切なディレクトリに移動したいと考えています。

すべての tar ファイルのリストを作成するソリューションをイメージできます。次に、このリストがマッパーに渡され、1 つのマッパーがリストから 1 つのファイルを抽出します。これは合理的なアプローチですか?

4

2 に答える 2

0

Distcp はファイルをある場所から別の場所に移動します。そのドキュメントを参照することはできますが、解凍または解凍機能は提供されていないと思いますか? ファイルがメイン メモリよりも大きい場合、メモリ不足エラーが発生する可能性があります。8 GB は Hadoop クラスターにはあまり大きくありません。マシンは何台ありますか?

于 2015-08-10T06:50:56.253 に答える