hadoop - Piglatin を使用してテキストファイルをロードする際にヘッダーをスキップする

Question

テキストファイルがあり、その最初の行にヘッダーが含まれています。今、データに対して何らかの操作を行いたいのですが、PigStorage を使用してファイルをロードしている間、HEADER も必要です。HEADERをスキップしたいだけです。(直接または UDF を介して) そうすることは可能ですか?

これは、データをロードするために使用しているコマンドです。

input_file = load '/home/hadoop/smdb_tracedata.csv'
USING PigStorage(',')
as (trans:chararray, carrier:chararray,aainday:chararray);

score 10 · Accepted Answer

通常、この問題を解決する方法は、ヘッダーにあることがわかっているものに FILTER を使用することです。たとえば、次のデータ例を考えてみましょう。

STATE,NAME
MD,Bob
VA,Larry

やります：

B = FILTER A BY state != 'STATE';

score 9 · Accepted Answer

ブタのバージョン 0.11 をお持ちの場合は、これを試すことができます。

input_file = load '/home/hadoop/smdb_tracedata.csv' USING PigStorage(',') as (trans:chararray, carrier :chararray,aainday:chararray);

ranked = rank input_file;

NoHeader = Filter ranked by (rank_input_file > 1);

Ordered = Order NoHeader by rank_input_file

New_input_file = foreach Ordered Generate trans, carrier, aainday;

これにより、最初の行が削除され、New_input_file はヘッダー行なしで元のファイルとまったく同じになります (ヘッダー行がファイルの最初の行であると仮定します)。ランク演算子は pig 0.11 でのみ使用できることに注意してください。そのため、以前のバージョンを使用している場合は、別の方法を見つける必要があります。

編集: New_input_file が元の入力ファイルと同じ順序を維持するように、順序付きの行を追加しました

score -1 · Accepted Answer

この種のエラーは通常、互換性のないデータ型を変換しようとしたときに発生します。同様の問題と理由に直面しました->ロードしようとしているファイルにはヘッダーが含まれており、エラーが表示されています。他の考えられる理由は、列にNAの、スペースが存在することによる可能性があります

hadoop - Piglatin を使用してテキスト ファイルをロードする際にヘッダーをスキップする

5 に答える 5

Related

Reference

hadoop - Piglatin を使用してテキストファイルをロードする際にヘッダーをスキップする