0

Pig が出力ディレクトリの再利用を妨げているようです。その場合、ファイル名をパラメーターとして受け入れる Pig UDF を作成し、UDF 内でファイルを開き、その場所にある既存のファイルに内容を追加します。これは可能ですか?

前もって感謝します

4

1 に答える 1

0

可能かもしれませんが、それが賢明かどうかはわかりません。新しい出力ディレクトリを作成しないのはなぜですか? たとえば、最終的にすべての結果を にしたい場合/path/to/resultsSTORE最初の run into の出力/path/to/results/001、次の run into/path/to/results/002など。このようにして、失敗したジョブから不良データを簡単に特定できます。すべてをまとめたい場合は、hdfs -cat /path/to/results/*/*.

実際に追加するのではなく、既存の内容を単に置き換えたい場合は、Pig のRMFシェル コマンドを使用できます。

%DEFINE output /path/to/results
RMF $output
STORE results INTO '$output';
于 2013-02-06T14:40:51.367 に答える