私はこの形式で自分のデータを持っています: student_id, course_id,grade,other_information
. これは、数十億と言う多数の学生向けです。学生のデータを処理するために書かれた perl スクリプトがあります。そこで、Hadoop フレームワークを使用して、各生徒のデータを perl スクリプトにストリーミングすることでプロセスを高速化することを考えました。
これは私がやっている方法です:
student_data = LOAD 'source' using PigStorage('\t') As (stud_id:string,...)
grp_student = group student_data by stud_id;
final_data = foreach grp_student {
flat_data = flatten(grp_student)
each_stud_data = generate flat_data;
result = STREAM each_stud_data THROUGH 'some perl script';
}
store final_data into '/some_location';
問題: このエラーが発生していますSyntax error, unexpected symbol at or near 'flatten'
。ググってみましたがだめでした。誰か助けてくれませんか?