問題タブ [snappy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - スナッピーな圧縮列ファミリでの Hadoop ジョブの実行
圧縮された列ファミリーのピッグ リレーションをダンプしようとしています。値が json blob である単一の列です。これは、snappy 圧縮によって圧縮され、値バリデーターは BytesType です。リレーションを作成してダンプした後、ゴミが発生します。説明は次のとおりです。
その後私は:
私も試しました:
しかし、これをダンプすると、まだバイナリのように見えます。
圧縮が透過的に処理されていないのですか、それとも何か不足しているだけですか? 私はいくつかのグーグルを行いましたが、この件については何も見ていません。また、Datastax Enterprise を使用しています。3.1. 前もって感謝します!
hadoop - org.apache.hadoop.mapred.YarnChild: 子の実行中にエラーが発生しました: java.lang.OutOfMemoryError: Java ヒープ領域
AWS EMR の AMI 3.0.4 で Hadoop 2.2.0 への入力として使用しようとしている 90MB のスナッピー圧縮ファイルがあります。
ファイルを読み取ろうとするとすぐに、私のレコード リーダーは次の例外を受け取ります。
デフォルトのメモリと io.sort.mb を使用して、AWS で m1.xlarge を実行しています。ファイルを解凍し、それを入力として使用すると、すべてうまくいきます。問題は、非常に多くの圧縮ファイルがあり、すべてを解凍したくないことです。
何らかの構成設定やコードの配線が欠落しているのかどうかはわかりません。続行方法がわからない。
hadoop - ハイブ ORC 圧縮
ハイブ v0.12.0 で次のコードを実行すると、異なる方法を使用して 3 つのテーブルが圧縮されると予想されるため、ファイルのサイズと内容は異なるはずです。
describe または Hue を使用してテーブルのメタデータをチェックすると、次のようになります。
メタデータには圧縮= FALSEと表示されていますが、これを変更する方法とこれがどのように影響するかはわかりません。
しかし、テーブルのデータを比較すると、それらはすべてバイナリで同一です。
これらのオプションを変更/削除しようとしましたが、違いはありません:
また、別のソーステーブル(TEXTFILEとして保存)を使用しようとしましたが、違いはありません。
何か考えや提案はありますか?
hadoop - Hadoop にスナッピーを表示させることができない
私はrhel7 64ビットを使用しています。ソースから Hadoop 2.4.1 ディストリビューションをビルドできたようです。その前に、ソースから snappy をビルドしてインストールしました。次に、hadoop dist をビルドします。と
それでも、私が見る$HADOOP_HOME/lib/native
と、hdfsとhadoopのライブラリが表示されますが、スナッピーではありません。そのため、実行hadoop checknative
すると、snappy がインストールされていないと表示されます。さらに、hadoop-snappy をダウンロードし、/that/ をコンパイルすると、snappy ライブラリが生成されました。追加の手段として、それらを $HADOOP_HOME/lib/native /and/ に $HADOOP_HOME/lib にコピーしました。まだ、hadoop checknative
見えない!
java - java.library.path が maven-shade-plugin で受け入れられない
次のようなコードがある場合:
これは、コマンド ラインで -Djava.library.path=/usr/lib/hadoop/lib/native/ を指定すると正常に機能します。テーブルはスナッピー圧縮されています
uber-jar が必要なため、maven-shade-plugin を使用して作成します。
コマンドラインで -Djava.library.path=/usr/lib/hadoop/lib/native/ を指定しても、同じコードが機能しません
エラーは次のとおりです。
sql - Sqoop と Snappy Compression を使用して Hive から値を読み取る
読み取り/書き込みパフォーマンスのためにファイルを圧縮する別の方法を使用しようとしています。私が調査した方法の 1 つは、Snappy 圧縮を使用することです。
これまでのところ、非常にうまく機能しており、HDFS に取り込んで、-text コマンドを使用して解凍し、値を確認することができました。実際の問題は、データをハイブにインポートしようとしたときに発生します。
データをハイブにインポートするときは、Snappy 圧縮ファイルを読み取るようにパラメーターを設定するとともに、単純な外部テーブルを作成します...
テストから SELECT COUNT(*) を実行すると; 正しい行の値を取得します。ただし、SELECT * FROM test limit 100; を実行すると、私が見るのはNULL値だけです。なぜこうなった?何かご意見は?
google-api - Google Compute Engine の Hadoop クラスタで Snappy/Snappy Codec を有効にする方法
Google Cloud Storage にある圧縮データに対して、Google Compute Engine で Hadoop ジョブを実行しようとしています。SequenceFileInputFormat を使用してデータを読み取ろうとすると、次の例外が発生します。
- SnappyCodec が利用できないようです。Google コンピューティング エンジンの Hadoop クラスタに Snappy を含める/有効にする方法を教えてください。
- Hadoop クラスターのデプロイ中に、bdutil スクリプトを使用して Snappy lib を (必要な場合) デプロイできますか?
- Google Compute Engine にデプロイされた Hadoop クラスタにサードパーティの libs/jar をデプロイするための最良の方法は何ですか?
どうもありがとう