“snappy”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

113 参照

hadoop - スナッピーな圧縮列ファミリでの Hadoop ジョブの実行

圧縮された列ファミリーのピッグリレーションをダンプしようとしています。値が json blob である単一の列です。これは、snappy 圧縮によって圧縮され、値バリデーターは BytesType です。リレーションを作成してダンプした後、ゴミが発生します。説明は次のとおりです。

その後私は：

私も試しました：

しかし、これをダンプすると、まだバイナリのように見えます。

圧縮が透過的に処理されていないのですか、それとも何か不足しているだけですか? 私はいくつかのグーグルを行いましたが、この件については何も見ていません。また、Datastax Enterprise を使用しています。3.1. 前もって感謝します！

2014-04-23T21:17:30.580

0 投票する

1 に答える

10991 参照

hadoop - org.apache.hadoop.mapred.YarnChild: 子の実行中にエラーが発生しました: java.lang.OutOfMemoryError: Java ヒープ領域

AWS EMR の AMI 3.0.4 で Hadoop 2.2.0 への入力として使用しようとしている 90MB のスナッピー圧縮ファイルがあります。

ファイルを読み取ろうとするとすぐに、私のレコードリーダーは次の例外を受け取ります。

デフォルトのメモリと io.sort.mb を使用して、AWS で m1.xlarge を実行しています。ファイルを解凍し、それを入力として使用すると、すべてうまくいきます。問題は、非常に多くの圧縮ファイルがあり、すべてを解凍したくないことです。

何らかの構成設定やコードの配線が欠落しているのかどうかはわかりません。続行方法がわからない。

hadoop emr snappy

2014-05-06T15:31:11.323

0 投票する

1 に答える

7411 参照

hadoop - ハイブ ORC 圧縮

ハイブ v0.12.0 で次のコードを実行すると、異なる方法を使用して 3 つのテーブルが圧縮されると予想されるため、ファイルのサイズと内容は異なるはずです。

describe または Hue を使用してテーブルのメタデータをチェックすると、次のようになります。

メタデータには圧縮= FALSEと表示されていますが、これを変更する方法とこれがどのように影響するかはわかりません。

しかし、テーブルのデータを比較すると、それらはすべてバイナリで同一です。

これらのオプションを変更/削除しようとしましたが、違いはありません:

また、別のソーステーブル（TEXTFILEとして保存）を使用しようとしましたが、違いはありません。

何か考えや提案はありますか？

hadoop compression hive cloudera snappy

2014-05-08T14:57:50.640

0 投票する

1 に答える

259 参照

hadoop - Hadoop にスナッピーを表示させることができない

私はrhel7 64ビットを使用しています。ソースから Hadoop 2.4.1 ディストリビューションをビルドできたようです。その前に、ソースから snappy をビルドしてインストールしました。次に、hadoop dist をビルドします。と

それでも、私が見る$HADOOP_HOME/lib/nativeと、hdfsとhadoopのライブラリが表示されますが、スナッピーではありません。そのため、実行hadoop checknativeすると、snappy がインストールされていないと表示されます。さらに、hadoop-snappy をダウンロードし、/that/ をコンパイルすると、snappy ライブラリが生成されました。追加の手段として、それらを $HADOOP_HOME/lib/native /and/ に $HADOOP_HOME/lib にコピーしました。まだ、hadoop checknative見えない！

hadoop rhel snappy

2014-07-24T18:59:56.640

0 投票する

1 に答える

376 参照

java - java.library.path が maven-shade-plugin で受け入れられない

次のようなコードがある場合:

これは、コマンドラインで -Djava.library.path=/usr/lib/hadoop/lib/native/ を指定すると正常に機能します。テーブルはスナッピー圧縮されています

uber-jar が必要なため、maven-shade-plugin を使用して作成します。

コマンドラインで -Djava.library.path=/usr/lib/hadoop/lib/native/ を指定しても、同じコードが機能しません

エラーは次のとおりです。

java maven java-native-interface hbase snappy

2014-08-04T21:52:21.650

0 投票する

1 に答える

1072 参照

sql - Sqoop と Snappy Compression を使用して Hive から値を読み取る

読み取り/書き込みパフォーマンスのためにファイルを圧縮する別の方法を使用しようとしています。私が調査した方法の 1 つは、Snappy 圧縮を使用することです。

これまでのところ、非常にうまく機能しており、HDFS に取り込んで、-text コマンドを使用して解凍し、値を確認することができました。実際の問題は、データをハイブにインポートしようとしたときに発生します。

データをハイブにインポートするときは、Snappy 圧縮ファイルを読み取るようにパラメーターを設定するとともに、単純な外部テーブルを作成します...

テストから SELECT COUNT(*) を実行すると; 正しい行の値を取得します。ただし、SELECT * FROM test limit 100; を実行すると、私が見るのはNULL値だけです。なぜこうなった？何かご意見は？

sql hadoop hive sqoop snappy

2014-08-04T23:37:54.213

0 投票する

1 に答える

5190 参照

google-api - Google Compute Engine の Hadoop クラスタで Snappy/Snappy Codec を有効にする方法

Google Cloud Storage にある圧縮データに対して、Google Compute Engine で Hadoop ジョブを実行しようとしています。SequenceFileInputFormat を使用してデータを読み取ろうとすると、次の例外が発生します。

SnappyCodec が利用できないようです。Google コンピューティングエンジンの Hadoop クラスタに Snappy を含める/有効にする方法を教えてください。
Hadoop クラスターのデプロイ中に、bdutil スクリプトを使用して Snappy lib を (必要な場合) デプロイできますか?
Google Compute Engine にデプロイされた Hadoop クラスタにサードパーティの libs/jar をデプロイするための最良の方法は何ですか?

どうもありがとう

google-api google-api-java-client google-compute-engine snappy google-hadoop

2014-08-21T22:24:09.077

問題タブ [snappy]

Reference