問題タブ [bzip2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - gzip または bzip2 爆弾から身を守るには?
これはzip bombs.tar.gz
に関する質問に関連していますが、gzip または bzip2 圧縮を念頭に置いています (たとえば、ファイルを受け入れる Web サービス) 。
Python は便利なtarfile モジュールを提供していますが、zipbomb に対する保護は提供していないようです。
tarfile モジュールを使用する Python コードで、zip 爆弾を検出する最もエレガントな方法は何でしょうか?
そして、もう少し簡単にするために、実際のファイルは関係ありません。入力はファイルのようなオブジェクトです (Web フレームワークによって提供され、ユーザーがアップロードしたファイルを表します)。
c# - .bz2ストリームをC#でファイルに解凍します
SharpZipLibライブラリの.bz2を使用しようとして本当に問題があり、他の場所でヘルプを見つけることができませんでした。
どんな助けやアドバイスも大歓迎です、そして誰かが私に既存の解決策を指摘することができれば私はそれから学ぶことができます素晴らしいでしょう!
以下は私がやろうとしていることですが、明らかにそれは機能していません。現在私が抱えている問題は、マークされた行で「EndOfStreamException」が処理されていないことです。コードは少し混乱しています、私はこれまでこのようなことをしようとしたことがありません...
解凍する前にこれをWebからダウンロードしていることがわかると思いますが、コードの一部は正しく機能していると確信しています。
hadoop - Hadoop で読み込まれた BZip2 ファイル
複数のマッパーを使用して、Hadoop で 1 つの bzip2 ファイルのさまざまな部分を並行して読み取って、パフォーマンスを向上させることができると聞きました。しかし、検索しても関連するサンプルが見つかりません。関連するコード スニペットを教えていただければ幸いです。ありがとう。
ところで:gzipには同じ機能があります(複数のマッパーが1つのgzipファイルの異なる部分を並行して処理します)。
java - 並列 BZip2 圧縮
Apache Commons Compress for Java を使用して、複数のログ ファイルを 1 つのアーカイブに圧縮しています tar.bz2
。
ただし、1日に約20GBのファイルを圧縮するため、圧縮には非常に長い(12時間以上)かかります。
このライブラリはファイルをモノスレッドで圧縮するため、これをマルチスレッドで行う方法があるかどうか知りたいです。
多くの解決策 (コマンドライン pbzip2 またはいくつかの C++ ライブラリ) を見つけましたが、Java について見つけたのは次のブログ投稿だけです。
https://plus.google.com/117421466255362255970/posts/3jfKVu325zh
Java アプリケーションでは使用できないようです。
そこに何かありますか?あなたは何をお勧めします?または、 bzip2 のような同様の圧縮率を持つ別のより高速なソリューションはありますか?
linux - 解凍中にファイルのすでに解凍された部分を削除する方法は?
解凍中にファイルのすでに解凍された部分を削除する方法があるかどうか疑問に思っています。圧縮ファイルの外部バックアップがあるので、データが失われる心配はありません。ファイルはbz2です。ドライブで使用できるのは50GBしかなく、圧縮ファイルは33 GBであるため、これを実行しようとしています。抽出中にファイルの一部を削除できない場合は、解凍されたファイル用の十分なスペースがありません。
これを回避するために私ができることは他にもありますが、私が上で述べたことが可能かどうか知りたいです。
hadoop - bzip2 inputformat を使用して MapReduce のマップ タスクを増やす方法
複数のマップ タスクを実行するテキスト ファイルで正しく動作する mr を開発しましたが、アーカイブでジョブを実行する必要があります。私の選択は bzip2 アーカイブです。このようなアーカイブを使用すると、私の仕事は 1 つのマップ タスクだけで機能します。
マップタスクを増やす方法を知っている人はいますか?
Hadoop バージョン: Hadoop 0.20.2-cdh3u5
異なるパラメータで mapred-site.xml を編集しようとしましたが、うまくいきませんでした。
gcc - Ubuntu 12.04LTS での CASAVA のインストールエラー
Ubuntu 12.04 LTS に CASAVA Bcl2Fastq 1.8.3 (CentOS 用に開発) をインストールしようとしています。しかし、「gzip 圧縮はサポートされていません」というエラー メッセージが表示され、インストールに失敗しました。幸いなことに、この問題の解決策を見つけました。
しかし、「bzip2圧縮のサポートがありません」という別の同様のエラーが表示されました。このエラーを解決するために同様のことができるかどうか疑問に思っていますか?
node.js - Node.jsで.bz2パイプ抽出?
node.jsでtar.gzで以下のように.tar.bz2を抽出したい:
「zlib.createGunzip()」の部分は、bz2-deflator に置き換える必要があります。この問題の作業パッケージを知っている人はいますか?
ありがとう
hadoop - 連結された 2 つの bz2 ファイルと、連結された 2 つのファイルから作成された 1 つの bz2 ファイルの違いは何ですか?
oneとtwoの 2つのテキスト ファイルがある場合、次の違いは何ですか。
bz2 one two -c >out.bz2
...と...
猫 1 2 | 猫 1 2 | bzip2 -c >out.bz2
?
具体的には、pbzip2を使用して bz2 ファイルを生成し、それらを HDFS に配置してから、豚から読み取り、MAPREDUCE-477をヒットしています。Hadoop クラスターをバージョン 0.20 からアップグレードできません。非並列の bz2 実装を使用すると遅すぎるため、非ブロック圧縮アルゴリズムを使用したいと考えています。
連結された bz2 ファイルを連結されていないファイルに変換する方法はありますか? または、連結されていない bz2 ファイルを生成するように pbzip2 を変更するにはどうすればよいでしょうか?
ありがとう -
hadoop - Hadoop 入力に最適な分割可能な圧縮 = bz2?
Hadoop 処理のためにファイルを GZip 形式でアーカイブすることはあまり良い考えではないことに、少し遅れて気づきました。GZip は分割可能ではありません。参考までに、繰り返さない問題を以下に示します。
- Hadoop と圧縮された入力ファイルに関する非常に基本的な質問
- Hadoop gzip 圧縮ファイル
- マッパーを 1 つだけ使用する Hadoop gzip 入力ファイル
- Hadoop が大きなテキスト ファイルを分割し、gzip を使用して分割を圧縮できないのはなぜですか?
私の質問は、BZip2 は、単一のアーカイブ ファイルを Hadoop で並行して処理できるようにする最適なアーカイブ圧縮ですか? Gzipは間違いなくそうではありません。私の読書によると、LZOにはいくつかの問題があります。