0

現在、PyHive (Python3.6) を使用して、Hive クラスターの外部に存在するサーバーにデータを読み取り、Python を使用して分析を実行しています。

分析を実行した後、データを Hive サーバーに書き戻したいと考えています。解決策を探す際、ほとんどの投稿は PySpark の使用を扱っています。長期的には、PySpark を使用するようにシステムをセットアップします。ただし、短期的には、クラスター外のサーバーから Python を使用して Hive テーブルにデータを直接簡単に書き込む方法はありますか?

ご協力いただきありがとうございます!

4

4 に答える 4

0

少し掘り下げましたが、sqlalchemy を使用して pandas データフレームから直接ハイブ テーブルを作成する方法を見つけることができました。

from sqlalchemy import create_engine

#Input Information
host = 'username@local-host'
port = 10000
schema = 'hive_schema'
table = 'new_table'


#Execution
engine = create_engine(f'hive://{host}:{port}/{schema}')
engine.execute('CREATE TABLE ' + table + ' (col1 col1-type, col2 col2-type)')
Data.to_sql(name=table, con=engine, if_exists='append')
于 2018-12-22T05:30:06.297 に答える