PySpark を使用して Kudu データベースに接続しています。一連の述語を含む列の最小値を取得したいと考えています。API でオプションが見つからないようです
client = kudu.connect(host="myhost", port=1234)
table = client.table("impala::mydb.mytable")
scanner = table.scanner()
scanner.add_predicates([table['col1'] == 'test'])
scanner.set_project_column_names(['amount'])
myList = scanner.open().read_all_tuples()
上記はリストを取得しますが、金額列のMIN値が必要であることを指定する方法がわかりません。
試した
scanner.set_project_column_names([MIN('amount')])
しかし、その結果、MIN is not defined エラーが発生します。