私のユースケース:
EC2からSQOOPを介してHiveに大きなデータをインポートしたいと思います。Hiveにインポートされたデータは、いくつかのアルゴリズムを適用することによってHiveで処理され、いくつかの結果を生成します(テーブル形式、Hiveのみ)。また、生成された結果は、SQOOPのみを介してEc2に再度エクスポートされます。
私はアマゾンウェブサービスを初めて使用し、AWSEMRを使用してこのユースケースを実装したいと考えています。ローカルマシンに実装しました。
インスタンスを起動するためのAWSEMRに関連するリンク、EMRとは何か、動作方法などについて読んだことがあります。
私はEMRについて次のような疑問を持っています:
1)EMRは、入力データと出力データのHadoop処理(オブジェクトの形式)を保持するS3バケットを使用します。---> S3でオブジェクトの形式でデータを保存する方法を取得できませんでした(私のデータはファイルになります)
2)すでに述べたように、Javaでユースケースのタスクを実装しました。したがって、プログラムのJARを作成し、カスタムJARを使用してジョブフローを作成するとします。このように実装することは可能ですか、それともそのために何か特別なことをする必要がありますか?
3)ユースケースで述べたように、SQOOPを使用して結果をEc2にエクスポートし直したいと思います。EMRはSQOOPをサポートしていますか?
--編集パート4)また、SQL Serverのデータは毎日/毎週更新されるため、SQLServerから毎日/毎週データをインポートします。そのデータをS3にインポートして、Hiveに渡すとしたら、どうすればよいですか?(HiveはデータをHDFSの/ user / hive / Warehouseディレクトリに保存するため)。HDFSのS3および/user/ hive/warehouseディレクトリにリンクするにはどうすればよいですか。
できるだけ早くあなたの答えを私に返信してください。できるだけ早くこれをやりたいです。
どうもありがとう。