8

Hive や Pig は必要ありません。Amazon Data Pipeline はデフォルトで、スピンアップする EMR クラスターにそれらをインストールします。これにより、テストに必要以上に時間がかかります。インストールを無効にする方法についてのアイデアはありますか?

4

1 に答える 1

1

これは今日の時点では不可能です。

唯一の回避策は、テストに使用する小さな EMR クラスターを起動することです (単一マスター - m1.small など)。次に、「runsOn」ではなく「workergroup」で使用します。

使用するアクティビティの種類に応じて、workergroup フィールドがサポートされている場合とサポートされていない場合があります。ただし、いつでもすべてをスクリプト (python、shell、または何とか) でラップして、ShellCommandActivity で使用できます。


更新(ChristopherBによって正しく思い出されました):

3.x AMI バージョンから、Hive と Pig は AMI 自体にバンドルされています。そのため、この手順では S3 から新しいパッケージをプルするのではなく、マスター ノードでデーモンをアクティブ化するだけです。そのため、インスタンス リソース (CPU、メモリなど) が消費されることを心配しない限り、問題ありません。実行にそれほど時間はかかりません。

于 2015-02-16T18:52:03.017 に答える