したがって、入力データには id1 と id2 の 2 つのフィールド/列があり、コードは次のとおりです。
TextLine(args("input"))
.read
.mapTo('line->('id1,'id2)) {line: String =>
val fields = line.split("\t")
(fields(0),fields(1))
}
.groupBy('id2){.size}
.write(Tsv(args("output")))
出力結果は、(私が想定する) 2 つのフィールドになります: id2 * サイズ。id2 とグループ化された id1 の値を保持し、それを別のフィールドとして追加することが可能かどうかを調べることに少し行き詰まっていますか?