0

私は一種の奇妙な問題に直面しています。lastmodified を使用すると、古いファイルと新しいファイルがマージされて重複が削除されることがわかった場所のほとんど。私の場合、それは起こっていません。

  • 私が使用した:

    sqoop import --connect "jdbc:mysql://<hostname>:3306/<dbname>" --username root -password password --table LoginRoles --hive-import --create-hive-table --hive-table LoginRoles --hive-delims-replacement " "

テーブルが作成され、データが適切/user/hive/warehouseな場所にロードされました。

LoginRoleId LoginRole   CreatedDate             ModifiedDate

1       admin1  2013-09-30 14:21:28 2013-09-30 16:03:39
2       admin2  2013-09-30 14:36:23 2013-09-30 15:53:19
3       admin3  2013-09-30 14:39:13 2013-09-30 14:39:13
4       admin5  2013-09-30 14:40:55 2013-09-30 14:40:55
  • 今、私は以下のクエリを実行し、変更日が更新されました'2013-09-30 17:03:44'

update loginroles set ModifiedDate=now(),loginrole="admin4" where LoginRoleID=4;

  • 以下を使用してジョブを実行したときSqoop job -exec mymodified

sqoop job --create mymodified -- import --connect "jdbc:mysql://<hostname>:3306/<dbname>" --username root -password password --table LoginRoles --hive-import --hive-table LoginRoles --hive-delims-replacement " " --check-column ModifiedDate --incremental lastmodified --last-value '2013-09-30 16:03:39'

以下のように、ハイブに合計 5 行が表示されます。

1   admin1  2013-09-30 14:21:28.0   2013-09-30 16:03:39.0   
4   admin4  2013-09-30 14:40:55.0   2013-09-30 17:03:44.0
2   admin2  2013-09-30 14:36:23.0   2013-09-30 15:53:19.0
3   admin3  2013-09-30 14:39:13.0   2013-09-30 14:39:13.0
4   admin5  2013-09-30 14:40:55.0   2013-09-30 14:40:55.0

重要で微妙なものが欠けていると確信しています。

使用したsqoopのバージョン詳細 Sqoop 1.4.3-cdh4.3.0 git commit id 7a52f9aa97cba43aae8b700f7e93f97dcdb0b21a Compiled by jenkins on Mon May 27 20:33:21 PDT 2013

4

1 に答える 1

0

このアプローチは、現時点では機能しません。Cloudera の Google グループに投稿しましたが、今のところ機能しません。回避策を使用して、ステージング フォルダーを作成し、それらをクリーニングする必要があります。以下のリンクは、問題の解決に役立ちました。

http://himansubaweja.com/post/7529434265/analytics-reached-mysql-limit-lets-hive

于 2013-10-04T10:51:07.323 に答える