「Hadoop データセット」に関するSpark Scala プログラミング ガイドのセクションから:
Spark は、Hadoop 分散ファイル システム (HDFS) または Hadoop でサポートされているその他のストレージ システム (ローカル ファイル システム、Amazon S3、Hypertable、HBase などを含む) に保存されている任意のファイルから分散データセットを作成できます。Spark は、テキスト ファイル、SequenceFiles、およびその他の Hadoop InputFormat をサポートしています。
gzip 入力ファイルのサポートは、Hadoop と同じように機能するはずです。たとえば、 gzip で圧縮されたsc.textFile("myFile.gz")
ファイルを自動的に解凍して読み取る必要があります (textFile()
実際には、gzip で圧縮されたファイルをサポートするHadoop の を使用して実装されTextInputFormat
ています)。
コメントで@nick-chammasが述べたように:
gzip されたファイルを呼び出した場合、Spark は 1 つのパーティションのみを含む RDD を提供することに注意してくださいsc.textFile()
(0.9.0 現在)。これは、gzip ファイルが分割可能でないためです。何らかの方法で RDD を再分割しない場合、その RDD での操作は単一のコアに制限されます。