performance - データベースからデータをエクスポートし、HDFS (hadoop fs) に書き込みます

Question

今、db テーブルからデータをエクスポートし、hdfs に書き込もうとしています。

問題は、名前ノードがボトルネックになるかどうかです。ノードキャッシュにスライス（64MB）を指定してからデータノードに渡す仕組みはどうですか？

hdfsを書くよりも良い方法はありますか? 並列処理を利用していないと思うからです。

ありがとう：）

score 2 · Accepted Answer

Sqoop の使用を検討しましたか。Sqoop を使用して、JDBC をサポートする任意の DB からデータを抽出し、HDFS に配置できます。

http://www.cloudera.com/blog/2009/06/introducing-sqoop/

Sqoop インポートコマンドは、実行するマップジョブの数を取得します (デフォルトは 1 です)。また、作業を並列化する (マップタスク > 1) 間、分割列を指定するか、Sqoop がテーブルのシーケンスキーに基づいて推測します。各マップファイルは、ディレクトリ内の結果用に個別のファイルを作成します。膨大な数のファイルが大量に作成されない限り、NN はボトルネックにはなりません (NN はファイルに関するメタデータをメモリに保持します)。

Sqoop は、ソース DB (Oracle、MySQL など) を解釈し、JDBC チャネルの代わりに mysqldump や import などの DB 固有のツールを使用してパフォーマンスを向上させることもできます。

performance - データベースからデータをエクスポートし、HDFS (hadoop fs) に書き込みます

1 に答える 1

Related

Reference