複数行、複数行の *.csv ファイルとして与えられた多変量時系列を Apache Pig で処理する必要があります。問題を解決するためにカスタム UDF (EvalFunc) を使用しようとしています。ただし、csvファイルにデータをロードしてUDFに渡すために試したすべてのローダー(動作しないorg.apache.pig.impl.io.ReadToEndLoaderを除く)は、ファイルの1行を1つのレコードとして返します. ただし、完全な時系列を処理できるようにするには、 1 つの列(または完全なファイルの内容) が必要です。より長い値のシーケンスが必要なため、1 つの値を処理することは明らかに役に立ちません...
csv ファイルのデータは次のようになります (30 列、1 番目は日時、その他はすべて double 値、ここでは 3 つのサンプル行):
17.06.2013 00:00:00;427;-13.793273;2.885583;-0.074701;209.790688;233.118828;1.411723;329.099170;331.554919;0.077026;0.485670;0.691253;2.847106;297.912382;50.000000;0.000000;0.012599;1.161726;0.023110;0.952259 ;0.024673;2.304819;0.027350;0.671688;0.025068;0.091313;0.026113;0.271128;0.032320;0 17.06.2013 00:00:01;430;-13.879651;3.137179;-0.067678;209.796500;233.141233;1.411920;329.176863;330.910693;0.071084 ;0.365037;0.564816;2.837506;293.418550;50.000000;0.000000;0.014108;1.159334;0.020250;0.954318;0.022934;2.294808;0.028274;0.668540;0.020850;0.093157;0.027120;0.265855;0.033370;0 17.06.2013 00:00:02;451 ;-15.080651;3.397742;-0.078467;209.781511;233.117081;1.410744;328.868437;330.494671;0.076037;0.358719;0.544694;2.841955;288.345883;50.000000;0.000000;0.017203;1.158976;0.022345;0.959076;0.018688;2.298611;0.027253;0.665095;0.025332 ;0.099996;0.023892;0.271983;0.024882;0
これを29の時系列として処理する方法を知っている人はいますか? 前もって感謝します!