RDBMSで利用できるものと同様に、cpythonスクリプトにpigを埋め込む方法を知っている人はいますか?検索しましたが、運がありません。
jythonでは利用できないさまざまなcpythonライブラリを使用してデータを処理しようとしているため、Jythonは使用しません。
RDBMSで利用できるものと同様に、cpythonスクリプトにpigを埋め込む方法を知っている人はいますか?検索しましたが、運がありません。
jythonでは利用できないさまざまなcpythonライブラリを使用してデータを処理しようとしているため、Jythonは使用しません。
Jythonは、ここ、ここ、ここのように最も人気のあるオプションのようですが、Jythonにも焦点を当てていますが、このスレッドが役立つ場合があります。Pythonを介したUDFへの焦点は明らかにJythonにあるように思われるので、CPythonライブラリが絶対に必要でない限り、代わりに弾丸を噛んでそれを使用することを検討してください。考慮すべきもう1つのことは、Jythonがバージョン2.7(ソース)の成熟に近づいていることですが、これはニーズには実用的ではない可能性があります。
CPythonのサポートは最近Pig0.12で追加されました:http://blog.mortardata.com/post/62334142398/hadoop-python-pig-trunk
「RDBMSで利用できるものと同様」とはAPIを意味する場合、サブプロセスを使用してオブジェクトモデルを構築できます。私は過去に次のようなものを使用しました。
import subprocess
from subprocess import Popen, PIPE
def execute(command):
print command + "\n"
p = subprocess.Popen(command, stdout=subprocess.PIPE, shell=True)
stdout, stderr = p.communicate()
print stdout
return p.returncode
command = "pig.9 -p input=" + input + "/* -p output=" + output + " -f my.pig"
execute(command)