さまざまな記事の単語の tf-idf 値を記述したスキーマがあります。その説明は次のようになります。
tfidf_relation: {word: chararray,id: bytearray,tfidf: double}
以下は、そのようなデータの例です。
(cat,article_one,0.13515503603605478)
(cat,article_two,0.4054651081081644)
(dog,article_one,0.3662040962227032)
(apple,article_three,0.3662040962227032)
(orange,article_three,0.3662040962227032)
(parrot,article_one,0.13515503603605478)
(parrot,article_three,0.13515503603605478)
cat article_one 0.13515503603605478、article_two 0.4054651081081644 などの形式で出力を取得したい。問題は、単語フィールドと id および tfidf フィールドのタプルを含むこれからの関係をどのように作成するかです。このようなもの:
X = FOREACH tfidf_relation GENERATE word, (id, tfidf);
動作しません。これの正しい構文は何ですか?