Pig が出力ディレクトリの再利用を妨げているようです。その場合、ファイル名をパラメーターとして受け入れる Pig UDF を作成し、UDF 内でファイルを開き、その場所にある既存のファイルに内容を追加します。これは可能ですか?
前もって感謝します
Pig が出力ディレクトリの再利用を妨げているようです。その場合、ファイル名をパラメーターとして受け入れる Pig UDF を作成し、UDF 内でファイルを開き、その場所にある既存のファイルに内容を追加します。これは可能ですか?
前もって感謝します
可能かもしれませんが、それが賢明かどうかはわかりません。新しい出力ディレクトリを作成しないのはなぜですか? たとえば、最終的にすべての結果を にしたい場合/path/to/results
、STORE
最初の run into の出力/path/to/results/001
、次の run into/path/to/results/002
など。このようにして、失敗したジョブから不良データを簡単に特定できます。すべてをまとめたい場合は、hdfs -cat /path/to/results/*/*
.
実際に追加するのではなく、既存の内容を単に置き換えたい場合は、Pig のRMF
シェル コマンドを使用できます。
%DEFINE output /path/to/results
RMF $output
STORE results INTO '$output';