多くの CSV ファイルがあり、すべてヘッダー行があります。ファイルはすべて似ています:
name, gender, preference, ....
peter, m, soap, ...
paul, m, gel, ...
mary, f, soap, ...
.
.
.
ただし、列の位置と正確なヘッダー名は少し異なる場合があります。別のファイルは次のようになります。
"the preferences", "the name", "the gender",....
soap, peter, m, ...
gel, paul, m, ...
soap, mary, f, ...
.
.
.
ヘッダーに「 」という単語が含まれる列のみを出力/保存したいname
。各ファイルが異なる可能性があるため、この列の位置は事前にわかりません。
したがって、各ファイルの列をヘッダー名に関連付ける必要があります。Pigでこれを行うことはできますか?
2 つのFILTER
演算子 (ヘッダー用に 1 つ、データ用に 1 つ) を使用することを考えていますが、このためのデータを 2 回読み取る必要はありませんか?