hadoop - ブタでのスナッピー圧縮入力の読み取り

Question

snappy で圧縮された pig にロードしようとしているファイルがあります。このジラの問題で説明されているように、設定オプションをうなり声で設定しましたが、結果に圧縮されたデータがまだ含まれています。

ジョブを実行すると、次のように表示されます: org.apache.hadoop.io.compress.snappy.LoadSnappy - Snappy ネイティブライブラリが利用可能です

仕事のために、単純な
a = load '/path/to/snappy/file' using PigStorage() as (x, y, z) を実行します

次に:
データをダンプする

圧縮データを出力します。

データを正しく読み取るために何ができるか知っている人はいますか? 前もって感謝します。

score 1 · Accepted Answer

PigStorage は入力に PigTextInputFormat を使用し、Snappy 圧縮ファイルを検出して使用しますが、ファイルには Hadoop 圧縮コーデックファクトリが snappy を使用するための正しい拡張子が必要です。

私の推測では、あなたのファイルには .snappy 拡張子がありません。ファイルの名前を変更して、もう一度試してください。

1 に答える 1