hadoop - Hadoop での分散ファイル処理?

Question

圧縮された tar ファイルが多数あり、各 tar 自体に複数のファイルが含まれています。これらのファイルを抽出し、hadoop または同様の手法を使用して処理を高速化したいと考えています。この種の問題のためのツールはありますか？私の知る限り、hadoop や、spark や flink などの同様のフレームワークは、ファイルを直接使用せず、ファイルシステムに直接アクセスすることもできません。また、抽出したファイルの基本的な名前を変更し、適切なディレクトリに移動したいと考えています。

すべての tar ファイルのリストを作成するソリューションをイメージできます。次に、このリストがマッパーに渡され、1 つのマッパーがリストから 1 つのファイルを抽出します。これは合理的なアプローチですか？

score 0 · Accepted Answer

Distcp はファイルをある場所から別の場所に移動します。そのドキュメントを参照することはできますが、解凍または解凍機能は提供されていないと思いますか? ファイルがメインメモリよりも大きい場合、メモリ不足エラーが発生する可能性があります。8 GB は Hadoop クラスターにはあまり大きくありません。マシンは何台ありますか?

hadoop - Hadoop での分散ファイル処理?

2 に答える 2

Related

Reference