2

100 万個のテキスト ファイルを HDFS にアップロードしようとしています。したがって、Eclipse を使用してこれらのファイルをアップロードするには、約 2 時間かかります。誰でもこのことを行うための高速なテクニックを教えてもらえますか? 私が考えているのは、すべてのテキスト ファイルを 1 つの zip に圧縮し、それを HDFS にアップロードし、最終的にいくつかの解凍技術を使用して、それらのファイルを HDFS に抽出することです。どんな助けでも大歓迎です。

4

2 に答える 2

2

Distcp は HDFS にファイルをアップロードするための優れた方法ですが、特定のユース ケース (同じコンピューターで実行されている単一ノード クラスターにローカル ファイルをアップロードする場合) では、ファイルを HDFS にまったくアップロードしないことが最善の方法です。HDFS の代わりにlocalfs ( file://a_file_in_your_local_disk) を使用できるため、ファイルをアップロードする必要はありません。

これを行う方法の例については、この他のSO の質問を参照してください。

于 2013-10-12T00:12:23.190 に答える