Dataset<Row>
json 文字列の単一の列を持つ:
+--------------------+
| value|
+--------------------+
|{"Context":"00AA0...|
+--------------------+
Json サンプル:
{"Context":"00AA00AA","MessageType":"1010","Module":"1200"}
次のように最も効率的に取得するにはどうすればよいですかDataset<Row>
。
+--------+-----------+------+
| Context|MessageType|Module|
+--------+-----------+------+
|00AA00AA| 1010| 1200|
+--------+-----------+------+
これらのデータをストリームで処理しています。ファイルから読み取っているときに、spark が自分でこれを実行できることを知っています。
spark
.readStream()
.schema(MyPojo.getSchema())
.json("src/myinput")
しかし今、私はカフカからデータを読んでおり、別の形式でデータを提供しています。私は Gson のようないくつかのパーサーを使用できることを知っていますが、spark にそれをさせたいと思っています。