Amazon S3 ソースの場所を使用して Hive (Hadoop 上) に外部テーブルを作成する場合、データはいつローカルの Hadoop HDFS に転送されますか? オンになっていますか:
- 外部表の作成
- 照会 (MR ジョブ) が外部テーブルで実行されるとき
- never (データが転送されない) および MR ジョブは S3 データを読み取ります。
ここで S3 読み取りにかかるコストはいくらですか? HDFS へのデータ転送に 1 つのコストがかかるのか、それともデータ転送コストはないが、Hive によって作成された MapReduce ジョブがこの外部テーブルで実行されると、読み取りコストが発生するのか。
外部テーブル定義の例は次のとおりです。
CREATE EXTERNAL TABLE mydata (key STRING, value INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '='
LOCATION 's3n://mys3bucket/';