問題タブ [snappy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ログのSnappyまたはLZOは、Hadoopによって消費されます
大量のサービスを提供しています。イベントをログに記録します。数分ごとに、gzipを使用してログを圧縮し、S3にローテーションします。そこから、AmazonのHadoop(elastic mapreduce)を使用してHive経由でログを処理します。
現在、サーバーでは、ログを圧縮してローテーションすると、数分ごとにCPUスパイクが発生します。このCPUスパイクを減らすために、gzipからlzoまたはsnappyに切り替えたいと考えています。私たちはCPUにバインドされたサービスであるため、ローテーション時に消費されるCPUを減らすために、より大きなログファイルを交換する用意があります。
私はLZOとSnappy(別名zippy)についてたくさん読んでいます。LZOの利点の1つは、HDFSで分割できることです。ただし、ファイルはGzipで最大15 MB圧縮されているため、HDFSで最大64 MBのデフォルトのブロックサイズになるとは思わないので、これは問題ではありません。たとえそうだったとしても、デフォルトを128MBまで上げることができるはずです。
今のところ、少し速く/リソースをあまり消費しないように見えるので、スナッピーを試してみたいと思います。どちらもAmazonのyumリポジトリに含まれていないようです。そのため、とにかくカスタムインストール/ビルドする必要があります。エンジニアリング時間のトレードオフはそれほど多くありません。LZOライセンスについていくつかの懸念を聞いたことがありますが、コードに近づかない場合は、サーバーにインストールするだけだと思います。
だから、私はどちらを選ぶべきですか?Hadoopでは一方が他方よりもパフォーマンスが向上しますか?誰かがどちらかの実装でこれを行い、共有できる問題がありますか?
cassandra - Cassandra 圧縮コードベース
Cassandra の列ファミリーに新しい列を挿入するときに、正確にディスクに格納されるバイト数を知りたいです。私の主な問題は、列が Snappy で圧縮されるときにこの情報を知る必要があることです。生のバイトの計算は知っていますが、データの変動性のために、圧縮率を適切に概算することはできません。この量のバイトが Cassandra コードベースのどこにあるかについての情報は歓迎します。
前もって感謝します。
nsdata - Snappy圧縮はSNAPPY_INVALID_INPUTのみを返します
私はlibSnappyで圧縮を行うNSDataに短いカテゴリを書きました。圧縮中はチャームのように機能しますが、解凍コードの結果はになりSNAPPY_INVALID_INPUT
ます。興味深いのは、無効なOp-Codeにもかかわらず、snappyがまだ私result
のバッファを非圧縮データで埋めていることです。なぜスナッピーが私にこれを投げているのか誰かが知っていますか?
NSKeyedArchiver
圧縮/非圧縮されているデータは呼び出しの結果であることに注意してください。
hadoop - ブタでのスナッピー圧縮入力の読み取り
snappy で圧縮された pig にロードしようとしているファイルがあります。このジラの問題で説明されているように、設定オプションをうなり声で設定しましたが、結果に圧縮されたデータがまだ含まれています。
ジョブを実行すると、次のように表示されます: org.apache.hadoop.io.compress.snappy.LoadSnappy - Snappy ネイティブ ライブラリが利用可能です
仕事のために、単純な
a = load '/path/to/snappy/file' using PigStorage() as (x, y, z) を実行します
次に:
データをダンプする
圧縮データを出力します。
データを正しく読み取るために何ができるか知っている人はいますか? 前もって感謝します。
python - Python で Snappy で解凍できない
私のプロジェクトでは、Python の HTML ページでSnappy圧縮を使用しています。HTML ページを正常に圧縮しています。html_page
Web サイトの html 文字列が含まれます。
しかし、圧縮されたデータを解凍する際に問題に直面しています:
Snappy の圧縮と解凍を手伝ってもらえますか? または、ネットワーク経由でデータを転送するための圧縮と解凍の最適な方法はどれですか?
java - ElasticSearch:xerial.snappyエラーFAILED_TO_LOAD_NATIVE_LIBRARY
ElasticSearchクライアントを実行しようとしていますが、xerial.snappyエラーFAILED_TO_LOAD_NATIVE_LIBRARYが発生します。
Elastic Search v。0.20.5を使用しています:
また、依存関係にsnappy v.1.0.4.1を追加しました(ただし、どちらも役に立ちませんでした):
これが私が得ているエラーです(私のアプリは引き続き実行されますが、圧縮ライブラリが使用されていない可能性があります)
この問題を生成する私のコード:
誰かがこの問題に光を当てることができますか?ネイティブライブラリをロードするためにsnappyを作成する方法は?現在Win7-64を使用していますが、AWS(centOS、RHなど)で実行したい
python - Python で snappy をインポートできません
python-snappy という名前のパッケージを使用します。このパッケージには、snappyライブラリが必要です。したがって、次のようなコマンドでsnappyを正常にダウンロードしてインストールします。
snappy をインポートすると、次のエラーが表示されます。
Python 2.7、snappy、python-snappy、および Ubuntu 12.04 を使用しています。この問題を解決するにはどうすればよいですか? ありがとう
java - Elastic Search アップグレード後の Snappy Java 例外
こんにちは皆さん、私は最近、Elastic Search を 19.4 から 20.6 にアップグレードしました。それに必要な新しい依存関係の 1 つは、snappy Java でした。snappy の複数のバージョンを試しましたが、どのように見えても常に例外が発生します。解決できないスタートアップ:
大きなスタック。圧縮に問題があることを示しているようです。私がどこを見始めるべきかについての手がかりはありますか?
hadoop - mvn と make package エラー
わかった。ここに問題があり、それは私を夢中にさせています!!! 私はオンラインの指示に従い、hadoop をインストールしました。テキストを実行すると、スナッピー ローカル ライブラリをロードできないと表示されました。最初に snappy をインストールしてから、hadoop-snappy をインストールする必要があると言われています。Google コードから snappy-1.0.4 をダウンロードし、次の操作を行います: cd ../snappy-1.0.4 ./configure make sudo make install
次に、次の場合に問題になります: mvn package -Dsnappy.prefix=/usr/local
オンラインの投稿によると、デフォルトでは、snappy は /usr/local にインストールする必要があります。しかし、次のエラーが発生し、パスを変更してもエラーが発生します。
指定した目標を実行するにはプロジェクトが必要でしたが、ディレクトリに POM がありません。正しいディレクトリから maven を呼び出したことを確認してください。
mvnの間違ったディレクトリですか?またはスナッピーの不適切?そして、私が見つけることができない.xmlである必要があるpomの欠如を言いました..
助けてください!
hadoop - Hadoop を完全にインストールしなくても、ローカル クライアントから Snappy 圧縮を使用できますか?
開発/デバッグのためにローカル マシンからアクセスする Hadoop クラスターがあります。ローカル ボックスに Hadoop がインストールされていません。代わりに、クライアント ライブラリを使用します (Maven、FWIW 経由)。
私は現在、Snappy 圧縮で圧縮されたいくつかの SequenceFiles を読み込もうとしています。「native snappy library not available」というエラーが表示されます。これまでのところ、これを解決するために私が見つけたすべての情報は、クライアント マシンに完全な Hadoop がインストールされていることを前提としているようです。それらはすべて、Hadoop ディレクトリの下に配置するlibhadoop.so
ことについて話していlibsnappy.so
ます。lib/native
私の開発マシンには、Hadoop ディレクトリがありません。
Hadoop のフル インストールを実行できると思いますが、もっと簡単に実行できるかどうか知りたいです。これまでのところ、プロセスにこれらのライブラリを発見させるためのさまざまな試みが失敗しました。私はまだ正しい設定にたどり着いていないかもしれませんが、Snappy の使用を取り巻くすべてのドキュメントとスレッドに基づいて、それが可能か (または少なくとも簡単か) はわかりません。