python - CPythonにPigを埋め込む

Question

RDBMSで利用できるものと同様に、cpythonスクリプトにpigを埋め込む方法を知っている人はいますか？検索しましたが、運がありません。

jythonでは利用できないさまざまなcpythonライブラリを使用してデータを処理しようとしているため、Jythonは使用しません。

score 1 · Accepted Answer

Jythonは、ここ、ここ、ここのように最も人気のあるオプションのようですが、Jythonにも焦点を当てていますが、このスレッドが役立つ場合があります。Pythonを介したUDFへの焦点は明らかにJythonにあるように思われるので、CPythonライブラリが絶対に必要でない限り、代わりに弾丸を噛んでそれを使用することを検討してください。考慮すべきもう1つのことは、Jythonがバージョン2.7（ソース）の成熟に近づいていることですが、これはニーズには実用的ではない可能性があります。

score 1 · Accepted Answer

CPythonのサポートは最近Pig0.12で追加されました：http：//blog.mortardata.com/post/62334142398/hadoop-python-pig-trunk

score 1 · Accepted Answer

「RDBMSで利用できるものと同様」とはAPIを意味する場合、サブプロセスを使用してオブジェクトモデルを構築できます。私は過去に次のようなものを使用しました。

import subprocess
from subprocess import Popen, PIPE

def execute(command):
    print command + "\n"
    p = subprocess.Popen(command, stdout=subprocess.PIPE, shell=True)
    stdout, stderr = p.communicate()
    print stdout
    return p.returncode

command = "pig.9 -p input=" + input + "/* -p output=" + output + " -f my.pig"
execute(command)

python - CPythonにPigを埋め込む

3 に答える 3

Related

Reference