Google クラウド データフローを使用して GCS からデータを読み取り、BigQuery テーブルにロードしようとしていますが、GCS のファイルは圧縮 (gzip) されています。圧縮 / gzip されたファイルからデータを読み取るために使用できるクラスはありますか?
1 に答える
6
圧縮されたテキスト ソースからの読み取りが Dataflow でサポートされるようになりました (この commitの時点)。具体的には、gzip および bzip2 で圧縮されたファイルは、圧縮タイプを指定することで読み取ることができます。
TextIO.Read.from(myFileName).withCompressionType(TextIO.CompressionType.GZIP)
ただし、ファイルの拡張子が .gz または .bz2 の場合、何もする必要はありません。デフォルトの圧縮タイプは AUTO で、ファイル拡張子を調べてファイルの正しい圧縮タイプを決定します。これは、グロブから生成されるファイルが .gz、.bz2、および非圧縮の混合である可能性があるグロブでも機能します。
于 2015-02-06T20:24:15.790 に答える