postgresql.Driver for scalaを使用して、rdd の内容を postgres に挿入する spark (1.2.1 v) ジョブがあります。postgres には、「CDB_LatLng」など、挿入によってトリガーする必要があるいくつかの関数があります (その特定の関数は、CartoDB テーブルの「the_geom」列を計算します)。
COPY を使用してデータを postgres に挿入したい:
def copyIn(url: String, username: String, password: String, tableName: String, reader: java.io.Reader, columnStmt: String = "") = {
//connect to postgres database on the localhost
val driver = "org.postgresql.Driver"
var connection:Connection = null
Class.forName(driver)
connection = DriverManager.getConnection(url, username, password)
try {
connection.unwrap(classOf[PGConnection]).getCopyAPI.copyIn(s"COPY $tableName ($columnStmt) FROM STDIN (FORMAT CSV, DELIMITER ';'))", reader)
} catch {
case se: SQLException => println(se.getMessage)
case t: Throwable => println(t.getMessage)
} finally {
connection.close()
}
}
squares_rdd.foreachPartition(iter => {
val sb = new StringBuilder()
var keys : String = ""
iter.foreach(row => {
val mapRequest = Utils.getSquaresInsertMap(geoSelectMap, row)
val mapValues = mapRequest.values.mkString("; ")
sb.append(mapValues).append("\n")
if(keys == ""){
keys = mapRequest.keySet.mkString(", ")
}
})
copyIn(url, username, password, squares_table, new StringReader(sb.toString), keys)
sb.clear
})
使用しようとすると、列 'the_geom' が文字列データ "CDB_LatLng(x,y)" を受信できないというエラーが表示されます...ドキュメントに記載されているように、COPY コマンドは INSERT コマンドのようなトリガーを起動する必要があります。 COPY 内の列で関数を使用するにはどうすればよいですか?