さまざまなプロバイダーからさまざまな形式のデータを大量に取得しており、これらのデータを共通の形式の共通の場所に毎日移動したいと考えています。したがって、毎日 X テラバイトのデータをコピーする必要があります。
今は変換を避けたいので、X テラバイトのデータを HDFS から HDFS の別の場所に移動したいだけです。これには時間がかかる可能性があります。データをすばやく移動する方法を知っている人はいますか?? マルチスレッドについて考えていましたが、うまくいきますか? 多くのスレッドがファイルを同時にコピーするようにします。今のところ、スレッドがあるだけです。