HDFS ドキュメントによるとhadoop fs -text <file>
、「zip および TextRecordInputStream」データで使用できるため、データはこれらの形式のいずれかである可能性があります。
ファイルが圧縮されている場合、通常、Hadoop は HDFS に出力するときに拡張子を追加しますが、これがない場合は、ローカルで unzipping/ungzipping/unbzip2ing/etc をテストしてみてください。Pig はこの解凍を自動的に行うようですが、ファイル拡張子 (例: part-r-00000.zip) が必要になる場合があります --詳細.
TextRecordInputStream についてはよくわかりません。Pig のデフォルトのメソッドのように聞こえますが、間違っている可能性があります。簡単な Google を実行したときに、Pig を介してこのデータをロードするという言及は見当たりませんでした。
更新:
シーケンス ファイルであることを発見したので、PiggyBank を使用してそれをロードする方法は次のとおりです。
-- using Cloudera directory structure:
REGISTER /usr/lib/pig/contrib/piggybank/java/piggybank.jar
--REGISTER /home/hadoop/lib/pig/piggybank.jar
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();
-- Sample job: grab counts of tweets by day
A = LOAD 'mydir/part-r-000{00..99}' # not sure if pig likes the {00..99} syntax, but worth a shot
USING SequenceFileLoader AS (key:long, val:long, etc.);