1

オン プリミズ Hadoop クラスター (ローカル ネットワーク内) に一定量のデータがあり、Amazon クラウド S3 Hadoop クラスターに一定量のデータがあります。どちらの場所でも、データはハイブ テーブルに存在します。

ローカルの Hadoop クラスターからハイブ クエリを起動したいのですが、このクエリは、ローカル クラスターのハイブ テーブルからのデータと、Amazon s3 Hadoop クラスターからのハイブ テーブルのデータを結合する必要があります。両方の場所からデータを結合し、結果を提供する必要があります

ローカルのハイブ シェルからクエリを発行しているため、ローカル クラスター環境に。

この問題は Amazon Data Pipeline で処理できますか? はいの場合は、道を案内してください。

ありがとう、 -スヨーダ

4

1 に答える 1

1

自動解決策はありません。

まず、オンプレミス クラスターからデータをエクスポートし、AWS の S3 に転送する必要があります。次に、このデータを EMR クラスターにロードできます。

Data Pipeline を使用して、S3 に送信されたデータセットで Hive アクティビティを実行できます。

Data Pipeline のすぐに使えるアクティビティは、S3 コピー、EMR クラスターのセットアップ、および Hive アクティビティの実行に役立ちます。オンプレミスから AWS へのデータの転送には役立ちません。それを自動化する必要がある場合は、いくつかのスクリプトなどのコードを記述する必要があります。

于 2014-09-14T21:17:29.543 に答える