ファイルの (GCS) バケットを処理する必要があります。各ファイルは圧縮され、1 つの複数行の JSON レコードが含まれています。また、処理中のファイルの名前は重要であり、変換内でそれを知る必要があります。
ドキュメントの例から始めると、TextIO は非常によく似ていますが、各ファイルを 1 行ずつ処理するように設計されているようで、ファイル全体を一度に読み取ることはできません。また、処理中のファイル名を取得する方法がわかりませんか?
PCollectionTuple results = p.apply(TextIO.Read
.from("gs://bucket/a/*.gz")
.withCompressionType(TextIO.CompressionType.GZIP)
.withCoder(MyJsonCoder.of()))
カスタム IO リーダーなどを作成する必要があるように見えますか? 開始するのに最適な場所に関するヒントはありますか?