0

wordCount の例を見てみましょう:

input_lines = LOAD '/tmp/my-copy-of-all-pages-on-internet' AS (line:chararray);

-- Extract words from each line and put them into a pig bag
-- datatype, then flatten the bag to get one word on each row
bag_words = FOREACH input_lines GENERATE FLATTEN(TOKENIZE(line)) AS word;

スクリプトを実行するたびにバッグ全体を再構築する必要がないように、「bag_words」変数をシリアル化することは可能ですか?

ありがとう。

4

2 に答える 2

2

STORE bag_words INTO 'some-output-directory';

後で読み込んで、foreach の生成、フラット化、トークン化をスキップします。

于 2013-05-24T12:28:13.957 に答える
0

STORE コマンドを使用して pig で任意のエイリアスを出力できます。標準形式 (CSV など) を使用するか、独自の PigLoader クラスを記述して特定の動作を実装できます。次に、この出力を別のスクリプトでロードできるため、最初のロードをバイパスできます。

于 2013-05-24T12:23:23.487 に答える