python - Python クライアント経由の Hive クエリ

Question

AWS EMR で実行されている Hadoop クラスターにハイブ 0.8 をインストールしました。

ハイブクエリを実行し、結果をPythonにフェッチして、さらにロジックが含まれているデータQAを実行しようとしています。

現在、これは、ジョブフローステップとしてハイブクエリを送信し、それらの結果をマスターノードのローカルストレージにダンプし、それらの結果をローカルマシンに SCP 送信し、Python でファイルをロードして結果を解析することによって実現されています。全体として、あまり楽しいプロセスではありません。

理想的には、次のような方法でこれを行うことができます。

conn = hive.connect(ip, port, user, pw)
cursor = conn.cursor()
cursor.execute(query)
rs = cursor.fetchall()

これはおそらく可能であると思われます。ハイブは、ここでそれをサポートしていると言っています。私がやりたいことをやっているように見える別のSOの質問もあります。

しかし、ドキュメントを見つけるのに苦労しています。特に、これらの例で使用されているパッケージの入手先がわかりませんでした。誰かが Python クライアントを動作させる方法について詳細な指示を提供できれば非常に役に立ちますが、そうでない場合は、これらのパッケージをどこで入手できるかを知るだけでも役に立ちます。

python - Python クライアント経由の Hive クエリ

2 に答える 2

Related

Reference