問題タブ [s3distcp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop yarn を使用して distcp Java ジョブを実行する
java コードを使用して、hdfs に存在するファイルを s3 バケットにコピーしたいと考えています。私の Java コードの実装は次のようになります。
このコードは正常に実行されますが、問題は、yarn クラスターで distcp ジョブを起動しないことです。ローカル ジョブ ランナーを起動するため、大きなファイル コピーの場合はタイムアウトになります。
distcp ジョブがローカルではなくクラスターで実行されるように糸構成を構成する方法を理解するのを手伝ってください
hadoop - s3アップロードの特定の日付以降にすべてのハイブファイルを取得する方法 (python)
特定のデータベースからすべてのハイブテーブルを s3 に毎日アップロードするためのプログラムを作成しています。ただし、このデータベースには何年も前のレコードが含まれており、完全なコピー/配布には大きすぎます。
データベースを含む HDFS のディレクトリ全体を検索し、指定された (入力) date より後の last_modified_date を持つファイルのみを取得します。
次に、これらの一致するファイルの完全な distcp を s3 に実行します。(一致するファイルのパス/名前を別のファイルにコピーし、この余分なファイルから distcp をコピーする必要がある場合は、それも問題ありません。)
オンラインで見ると、フラグを使用して最終更新日でファイルを並べ替えることができることがわかった-t
ので、次のようなものから始めました: hdfs dfs -ls -R -t <path_to_db>
、しかしこれでは十分ではありません。500000 ファイルのように印刷されていますが、この入力日付より前のものをトリミングする方法をまだ理解する必要があります...
編集:私は Python スクリプトを書いています。最初に明確にしておらず申し訳ありません!
編集pt2:数千、さらには数十万のファイルをトラバースする必要があることに注意してください。問題を解決するために基本的なスクリプトを作成しましたが、実行に非常に時間がかかります。プロセスを高速化する方法が必要です....