3

毎日ハイブ スクリプトを自動化したいのですが、そのためにデータ パイプラインというオプションがあります。しかし、問題は、dynamo-db から s3 にデータをエクスポートしていて、ハイブ スクリプトを使用してこのデータを操作していることです。ハイブアクティビティには入力と出力が必要ですが、スクリプトファイルでそれらを提供する必要があるため、問題が発生する場所であるハイブスクリプトでこの入力と出力を提供しています。

このハイブスクリプトを自動化する方法を見つけようとしていて、いくつかのアイデアを待っていますか?

乾杯、

4

2 に答える 2

4

Hive アクティビティのステージングを無効にして、任意の Hive スクリプトを実行できます。

stage = false

次のようにします。

{
  "name": "DefaultActivity1",
  "id": "ActivityId_1",
  "type": "HiveActivity",
  "stage": "false",
  "scriptUri": "s3://baucket/query.hql",
  "scriptVariable": [
    "param1=value1",
    "param2=value2"
  ],
  "schedule": {
    "ref": "ScheduleId_l"
  },
  "runsOn": {
    "ref": "EmrClusterId_1"
  }
},
于 2013-11-16T03:04:43.563 に答える