1

私はHADOOPとPIGが初めてです。

私は2つのバッグを持っています:

DUMP A:
(1)
(2)
(4)

DUMP B:
(1,John,USA)
(2,Richard,UK)
(3,Ian,Ireland)
(4,Simon,Canada)

バッグ B にはすべての人物がリストされています。バッグ A には、私が興味を持っている人がいます。私が興味を持っている人だけを取得する簡単な方法があると確信しています。

(1,John,USA)
(2,Richard,UK)
(4,Simon,Canada)

誰かが私を不幸から救ってくれますか?

前もって感謝します。

4

1 に答える 1

0

次のようなコマンドを使用して、2 つのセットを結合して表示できるはずです。

JOINSET = join A by $0, B by $0;
DUMP JOINSET;

これを少し理解しやすくするために、最初にデータセットをロードするときに名前を「列」に関連付けます。foreach/generate コマンドでフィルタリングすることもできます。だから何か

INTEREST = foreach A generate $0 as interestID;
RECORDS = foreach B generate $0 as recordID, $1 as name, $2 as location;
JOINSET = join INTEREST by interestID, RECORDS by recordID;

列インデックスではなく「列名」を介して結合できるようになります。

于 2013-02-05T20:44:27.753 に答える