apache-spark - 列名なしでJDBCに書き込むpysparkの使用方法

Question

私の質問は本当に簡単です。

ハイブテーブルを SQL Server にエクスポートするために pyspark を使用しています。

SQL Server で列名を行としてエクスポートしたことがわかりました。

列名なしでやりたいだけです。

これらの列をテーブルに入れたくありません...

ここに私のpysparkコード：

df.write.jdbc("jdbc:sqlserver://10.8.12.10;instanceName=sql1", "table_name", "overwrite", {"user": "user_name", "password": "111111", "database": "Finance"})

列名をスキップするオプションはありますか?

score 1 · Accepted Answer

JDBC コネクタは、実際にはこれらのヘッダー行を追加するものではないと思います。ヘッダーは Dataframe に既に存在します。これは、Hive テーブルからデータを読み取る際の既知の問題です。

SQL を使用して Hive からデータをロードしている場合は、条件でヘッダーをフィルタリングしてみてくださいcol != 'col'。

# adapt the condition by verifiying what is in  df.show()    
df = spark.sql("select * from my_table where sold_to_party!='Sold-To Party'")

apache-spark - 列名なしでJDBCに書き込むpysparkの使用方法

1 に答える 1

Related

Reference