0

データを豚のスクリプトでファイルに保存したい状況に取り組んでいます。これは非常に簡単ですが、ファイル名をデータ自体から派生させたいと思います。したがって、タイムスタンプとしてデータにフィールドがあります。その日のすべてのデータを保存するファイル名として MAX(timestamp) を使用したいと思います。

STORE data INTO '$outputDir' USING org.apache.pig.piggybank.storage.MultiStorage('$outputDir', '2', 'none', ','); の使用法を知っています。

しかし、この変数「outputDir」はパラメータとして渡す必要があります。フィールドの派生値でこの値を設定したいのです。

どんな指針も本当に役に立ちます。

ありがとうございます。それでは、お元気で、

アトゥル・アガルワル

4

1 に答える 1

0

MultiStorageでは、ルートディレクトリを指定します。これは、通常、HDFSインストールが多くのユーザーによって共有されるため、データをどこにも書き込まないようにするためです。したがって、ルートディレクトリを変更することはできませんが、そのディレクトリ内でディレクトリ名を生成するために使用するフィールドを指定できます(この場合は2)。Javadocは役に立ちますが、すでに見たことがあると思いますか?

于 2013-02-12T19:06:09.540 に答える