Sqoop バージョン 1.4.2 と Oracle データベースを使用しています。
Sqoop コマンドの実行時。たとえば、次のようにします。
./sqoop import \
--fs <name node> \
--jt <job tracker> \
--connect <JDBC string> \
--username <user> --password <password> \
--table <table> --split-by <cool column> \
--target-dir <where> \
--verbose --m 2
--mを指定できます- Sqoop に実行させたい並列タスクの数 (同時にデータベースにアクセスしている可能性もあります)。./sqoop エクスポートでも同じオプションを使用できます <...>
使用するタスクの最適な数を推測するのに役立つヒューリスティック (おそらくデータのサイズに基づく) はありますか?
ありがとうございました!