apache-spark - Apache Spark SQL の Google ストレージ内のデータへのアクセス

翻译自：https://stackoverflow.com/questions/35033550 2016-01-27T09:34:58.837

512 次

クラウドストレージに約 30 Gb 相当のデータがあり、Dataproc クラスタから Apache Hive を使用してクエリを実行したいと考えています。このデータにアクセスするための最善の戦略は何ですか? gsutilを介してデータをマスターにコピーし、そこからアクセスするのが最善の方法ですか、それともクラウドストレージで直接アクセスできますか? 後者の場合、Spark CLI でその場所を指定するにはどうすればよいですか? 指定できますか

location 'gs://<bucketname>'

私が走るとき

CREATE EXTERNAL TABLE

apache-spark - Apache Spark SQL の Google ストレージ内のデータへのアクセス

1 に答える 1

Related

Reference