amazon-data-pipeline - プリム上の Hadoop クラスターと Amazon s3 Hadoop クラスターからのデータを結合するためのハイブ分散クエリ

Question

オンプリミズ Hadoop クラスター (ローカルネットワーク内) に一定量のデータがあり、Amazon クラウド S3 Hadoop クラスターに一定量のデータがあります。どちらの場所でも、データはハイブテーブルに存在します。

ローカルの Hadoop クラスターからハイブクエリを起動したいのですが、このクエリは、ローカルクラスターのハイブテーブルからのデータと、Amazon s3 Hadoop クラスターからのハイブテーブルのデータを結合する必要があります。両方の場所からデータを結合し、結果を提供する必要があります

ローカルのハイブシェルからクエリを発行しているため、ローカルクラスター環境に。

この問題は Amazon Data Pipeline で処理できますか? はいの場合は、道を案内してください。

ありがとう、 -スヨーダ

score 1 · Accepted Answer

自動解決策はありません。

まず、オンプレミスクラスターからデータをエクスポートし、AWS の S3 に転送する必要があります。次に、このデータを EMR クラスターにロードできます。

Data Pipeline を使用して、S3 に送信されたデータセットで Hive アクティビティを実行できます。

Data Pipeline のすぐに使えるアクティビティは、S3 コピー、EMR クラスターのセットアップ、および Hive アクティビティの実行に役立ちます。オンプレミスから AWS へのデータの転送には役立ちません。それを自動化する必要がある場合は、いくつかのスクリプトなどのコードを記述する必要があります。

amazon-data-pipeline - プリム上の Hadoop クラスターと Amazon s3 Hadoop クラスターからのデータを結合するためのハイブ分散クエリ

1 に答える 1

Related

Reference