Pig が出力ディレクトリの再利用を妨げているようです。その場合、ファイル名をパラメーターとして受け入れる Pig UDF を作成し、UDF 内でファイルを開き、その場所にある既存のファイルに内容を追加します。これは可能ですか?
前もって感謝します
Pig が出力ディレクトリの再利用を妨げているようです。その場合、ファイル名をパラメーターとして受け入れる Pig UDF を作成し、UDF 内でファイルを開き、その場所にある既存のファイルに内容を追加します。これは可能ですか?
前もって感謝します
可能かもしれませんが、それが賢明かどうかはわかりません。新しい出力ディレクトリを作成しないのはなぜですか? たとえば、最終的にすべての結果を にしたい場合/path/to/results、STORE最初の run into の出力/path/to/results/001、次の run into/path/to/results/002など。このようにして、失敗したジョブから不良データを簡単に特定できます。すべてをまとめたい場合は、hdfs -cat /path/to/results/*/*.
実際に追加するのではなく、既存の内容を単に置き換えたい場合は、Pig のRMFシェル コマンドを使用できます。
%DEFINE output /path/to/results
RMF $output
STORE results INTO '$output';