問題タブ [distcp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ワイルドカードまたは変数 (グロブ) を使用した distcp ディレクトリの設計パターン
distcp がワイルドカードを使用できないことは承知しています。ただし、ディレクトリの変更時にスケジュールされたdistcpが必要になります。(つまり、月曜日の「金曜日」ディレクトリ内のデータのみをコピーするなど) だけでなく、指定されたディレクトリの下のすべてのプロジェクトからもコピーします。
この種のスクリプトを作成するための何らかのデザイン パターンはありますか?
要するに、私はできるようになりたいです:
hadoop - スキームのファイルシステムがありません: sftp
以下のようにdistcpを使用してhadoopでsftpを使用しようとしています
しかし、私は以下のエラーが発生しています
誰でも問題の原因を示唆できますか。
hadoop - ハイブ テーブルを他の Hadoop クラスタにエクスポートするか、クラスタ + distcp 内でハイブをエクスポートしますか?
ある Hadoop クラスター A から別の B にハイブ テーブルをエクスポートしたいと考えています。
私には2つのアプローチがあります:
初め:
A の hdfs にエクスポート(同じクラスター)
クラスター B のhdfsへの distcp (別のクラスター)
- クラスタ B のハイブにインポート
2番:
- B の hdfs にエクスポート(別のクラスター)
- クラスタ B のハイブにインポート
distcp は特別な利点を追加していますか?
amazon-web-services - distcp: hdfs に s3 へのコピーにファイルが 1 つしかない場合に dir をフラット化しないようにする方法
現在、私の hdfs 構造は次のとおりです。
/データ/xxx/xxx/2014
/データ/xxx/xxx/2015
/データ/xxx/xxx/2016
2015 年に 2 ファイル、2016 年に 2 ファイル、2014 年に 1 ファイルのみ
このコマンドを使用して、それらを個別にコピーします。
hadoop distcp -Dfs.s3n.awsAccessKeyId="mykey" -Dfs.s3n.awsSecretAccessKey="mysecret" /data/xxx/xxx/2014* s3n://bucket/emr/xxx/xxx/year=2014/
なんとなくそう見える
前の年=2015/
前の年=2016/
44324255 年=2014
2014 のファイルは s3 フォルダーに保存されず、別のファイルとして保存されます。 (複数のファイルがあるため、このケースは 2015 と 2016 には発生しません)
PRE year=2014/ として保存する方法はありますか ???
このコマンドでディレクトリ階層をフラットにしたくありません。
hadoop - 2 つの Hadoop クラスターを維持する最適な方法
データベースからデータを転送することの長所と短所を理解できますか
- 一度に 2 つの個別の hdfs クラスターに
- 1 つの hdfs クラスターに移動し、distcp を使用してデータを 2 番目のクラスターに移動します。
hadoop - Hadoop distcp 一時フォルダー
Hadoop distcp は、HDFS から Amazon S3a にコピーするときに、HDFS に一時フォルダーを作成しますか?
HDFS から S3a に 1Tb のデータをコピーする場合、HDFS に追加の 1Tb の空き容量が必要ですか?
ありがとう。