0

クラウド ストレージに約 30 Gb 相当のデータがあり、Dataproc クラスタから Apache Hive を使用してクエリを実行したいと考えています。このデータにアクセスするための最善の戦略は何ですか? gsutilを介してデータをマスターにコピーし、そこからアクセスするのが最善の方法ですか、それともクラウド ストレージで直接アクセスできますか? 後者の場合、Spark CLI でその場所を指定するにはどうすればよいですか? 指定できますか

location 'gs://<bucketname>' 

私が走るとき

CREATE EXTERNAL TABLE 

?

4

1 に答える 1