Hive や Pig は必要ありません。Amazon Data Pipeline はデフォルトで、スピンアップする EMR クラスターにそれらをインストールします。これにより、テストに必要以上に時間がかかります。インストールを無効にする方法についてのアイデアはありますか?
1 に答える
1
これは今日の時点では不可能です。
唯一の回避策は、テストに使用する小さな EMR クラスターを起動することです (単一マスター - m1.small など)。次に、「runsOn」ではなく「workergroup」で使用します。
使用するアクティビティの種類に応じて、workergroup フィールドがサポートされている場合とサポートされていない場合があります。ただし、いつでもすべてをスクリプト (python、shell、または何とか) でラップして、ShellCommandActivity で使用できます。
更新(ChristopherBによって正しく思い出されました):
3.x AMI バージョンから、Hive と Pig は AMI 自体にバンドルされています。そのため、この手順では S3 から新しいパッケージをプルするのではなく、マスター ノードでデーモンをアクティブ化するだけです。そのため、インスタンス リソース (CPU、メモリなど) が消費されることを心配しない限り、問題ありません。実行にそれほど時間はかかりません。
于 2015-02-16T18:52:03.017 に答える