google-cloud-dataflow - GCS ファイルパターンを一度にフルファイルで処理するには?

翻译自：https://stackoverflow.com/questions/29372165 2015-03-31T15:16:27.957

429 次

ファイルの (GCS) バケットを処理する必要があります。各ファイルは圧縮され、1 つの複数行の JSON レコードが含まれています。また、処理中のファイルの名前は重要であり、変換内でそれを知る必要があります。

ドキュメントの例から始めると、TextIO は非常によく似ていますが、各ファイルを 1 行ずつ処理するように設計されているようで、ファイル全体を一度に読み取ることはできません。また、処理中のファイル名を取得する方法がわかりませんか?

PCollectionTuple results = p.apply(TextIO.Read
    .from("gs://bucket/a/*.gz")
    .withCompressionType(TextIO.CompressionType.GZIP)
    .withCoder(MyJsonCoder.of()))

カスタム IO リーダーなどを作成する必要があるように見えますか? 開始するのに最適な場所に関するヒントはありますか?

google-cloud-dataflow - GCS ファイルパターンを一度にフルファイルで処理するには?

1 に答える 1

Related

Reference