performance - Apache Pig を使用して、ヘッダー行に従って CSV から列を選択して保存する方法

Question

多くの CSV ファイルがあり、すべてヘッダー行があります。ファイルはすべて似ています：

name, gender, preference, ....
peter, m, soap, ...
paul, m, gel, ...
mary, f, soap, ...
.
.
.

ただし、列の位置と正確なヘッダー名は少し異なる場合があります。別のファイルは次のようになります。

"the preferences", "the name", "the gender",....
soap, peter, m, ...
gel, paul, m, ...
soap, mary, f, ...
.
.
.

ヘッダーに「」という単語が含まれる列のみを出力/保存したいname。各ファイルが異なる可能性があるため、この列の位置は事前にわかりません。

したがって、各ファイルの列をヘッダー名に関連付ける必要があります。Pigでこれを行うことはできますか？

2 つのFILTER演算子 (ヘッダー用に 1 つ、データ用に 1 つ) を使用することを考えていますが、このためのデータを 2 回読み取る必要はありませんか?

score 0 · Accepted Answer

ストリーミングまたはストレージ関数でこれを行う方がおそらく簡単でしょう。

ファイルのヘッダーを読み取り、「名前」フィールドの場所を見つけて、ファイル内の他のすべてのレコードのその場所にあるフィールドのみを返すことができます。

ファイルがタスク間で分割されている場合、ヘッダーを含まないファイルの部分で動作するタスクは「名前」フィールドを検出できないため、各分割が単一のファイルであることを確認する必要があります。

1 に答える 1