問題タブ [snappy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
832 参照

hive - HCatWriter を使用して Pig から STORE するときに、Avro-backed Hive テーブルで Snappy 圧縮を有効にする方法

次のように作成したHiveテーブルがあります。

Pig スクリプトを使用して、このテーブルにデータをロードします。

ここまでは問題ありません (データは Avro ファイルに保存されます) が、スナッピー コーデックを使用して圧縮したいと考えています。

追加しようとしました(特に)

Pig スクリプトと同じですが、違いはないようです。

Hive クエリを使用してテーブルにデータを挿入すると、テーブルの基になるファイルで、スナッピー圧縮が使用されていることがわかります。

HCatWriter に、Hive に Snappy 圧縮を使用してテーブルに書き込むように指示する方法はありますか?

ご協力いただきありがとうございます。

0 投票する
0 に答える
315 参照

c++ - google snappy を eclipse C++ プロジェクトにインポートする方法

私は Eclipse C++ プロジェクトを持っていて、Google snappy プロジェクト ファイル ( http://google.github.io/snappy/ ) を Eclipse にダウンロードしました。

コンパイルしようとすると、次のエラーが表示されます。

このファイルは存在しませんが、ファイル snappy-stats-public.h.in に移動すると、構成時にファイル (見つからない) が生成されると表示されます。これを機能させるために欠けているものはありますか?

0 投票する
1 に答える
1773 参照

hadoop - HBase Snappy Compression - テーブルの作成に失敗しました、CompressionTest は成功しました

Snappy Compression に関連する HBase の有線の問題を解決しようとしています。以下は、この問題に関連するすべての詳細な説明です。

  1. 問題の説明: HBase シェルで Snappy 圧縮を使用してテーブルを作成しようとしたとき: (デバッグ モードでの詳細な HBase シェル ログについては、添付ファイルを参照してください)

hbase(main):001:0> create 't3', { NAME => 'cf1', COMPRESSION => 'SNAPPY' }

  1. CompressionTest の結果: 圧縮テストを実行すると、成功しました:
  1. ネイティブ ライブラリ チェックの結果: HBase の Hadoop ネイティブ ライブラリ チェックを実行すると、次のようになります。

次の HBase-site.xml プロパティを設定すると、HMaster と RegionServer の両方が起動して正常に動作します。

  1. 任意の HBase ホストの HBase シェル プロセス:

物件が見れます

ロセスパラメータから。

また、「ls -l /solono/env/TestClusterHBase/lib/native/Linux-amd64-64」は次のように表示されます。

誰でもこの問題を手伝ってもらえますか? どんな提案や手がかりも大歓迎です!!

前もって感謝します!!

0 投票する
7 に答える
42930 参照

python - Python を使用して Parquet ファイルを作成する方法は?

Python を使用して Parquet ファイルを作成できるライブラリを見つけるのに苦労しています。Snappy または同様の圧縮メカニズムを組み合わせて使用​​できれば、ボーナス ポイントです。

これまでのところ、私が見つけた唯一の方法は、Spark をpyspark.sql.DataFrameParquet サポートとともに使用することです。

Spark ジョブではない Parquet ファイルを書き込む必要があるスクリプトがいくつかあります。関与しない Python で Parquet ファイルを作成する方法はありますpyspark.sqlか?

0 投票する
1 に答える
540 参照

rust - バッファで Snappy 圧縮を使用する

Rustでバッファとスナッピーを使用する最良の方法を見つけようとしています。以前は、を使用してファイルに書き込んでいましたBufWriter。しかし、今は圧縮も追加したいと思っています。上記の snappy クレートのcompress関数には&[u8]パラメータとして a が必要ですが、BufWritersnappy に渡すバッファへのアクセスは許可されません。これを回避するために2つの方法を調べました。

最初の方法では、バッファーの代わりにベクター (with_capacity) を使用し、ベクターBufWriterへの書き込みによってベクターが再割り当てされないようにする書き込み関数を作成しました。そうであれば、代わりに現在バッファにあるものを圧縮してからファイルに書き出し、ベクトルを解放します (ドレイン関数)。私は何をするかに基づいてこれを書きましたBufWriter。欠点は、これはベクトルであるため、バッファがスコープ外になった場合、バッファがファイルに自動的にフラッシュされないことです。ファイルを書き込んでいるスコープで手動で行う必要がありますが、これは好きではありません。

他の方法では、多かれ少なかれBufWriterソース コードをコピーし、flush関数を変更して、ファイルに出力する前にバッファー (ベクター) を圧縮しました。この方法が一番いいように思えますが、コードをコピーするだけという考えは好きではありません。

これらの 2 つのオプション、またはその他のオプションを続行するための最良の方法は何ですか?

関連する場合、バッファに書き込むオブジェクトは常に同じサイズであり、バッファ サイズはオブジェクト サイズの倍数です。