問題タブ [compressed-files]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - GetCompressedFileSizeに相当するJavaはありますか?
Javaでスパースファイルの正確な(つまり、ディスク上の実際のサイズであり、すべての0を含む通常のサイズではない)測定値を取得しようとしています。
Windows上のC++では、を使用しますGetCompressedFileSize
。私はまだJavaでそれを行う方法に出くわしていませんか?
直接同等のものがない場合、すべてのゼロを含むサイズではなく、スパースファイル内のデータを測定するにはどうすればよいですか?
明確にするために、Linux OSとWindowsの両方でスパースファイル測定を実行するためにこれを探していますが、2つの別々のアプリケーションをコーディングしてもかまいません!
julia - julia: bz2 圧縮テキスト ファイルの読み方
R では、圧縮されたテキスト ファイル全体を次のように文字ベクトルに読み取ることができます。
readLines
透過的に .gz および .bz2 ファイルを解凍しますが、圧縮されていないファイルでも機能します。ジュリアで利用できる類似のものはありますか? できます
しかし、これは圧縮ファイルを開くことができません。bzip2 ファイルを読み取るための推奨される方法は何ですか? 圧縮形式を自動的に推測できる方法はありますか (ファイル名拡張子を手動で確認する以外に) はありますか?
apache-spark - Spark での圧縮ファイルの処理: パーティションを再設定すると、パフォーマンスが向上または低下する可能性があります
「start_pyspark_shell」コマンドを使用して Spark シェルを開始し、cli オプションを - 4 つのエグゼキューター、エグゼキューターあたり 2 コア、ワーカー ノード用に 4 GB のメモリ、マスター用に 4 GB として指定しています。
ストレージ: HDFS
入力ファイル: サイズ 221.3 MB (HDFS では 2 ブロック) の圧縮 .csv.gz ファイル &
Spart バージョン: 2.4.0
当面のタスクは、ファイル内のレコード数をカウントする単純なものです。唯一の問題は、圧縮ファイルであることです。を使用してファイルをロードしました
私が実行したときdf.count()
、単一のエグゼキュータ タスクがあり、おそらく期待されている (?) ことがわかりました。これは、分割可能ではなく、単一のパーティションで操作される圧縮ファイルで作業しているためですか?
パーティションの数を確認したdf.rdd.getNumPartitions()
ところ、おそらく予想どおり 1 が返されました。
同じコマンドを複数回実行した場合、処理時間は約 15 ~ 17 秒でした。
ここで、上記の処理にはあまり並列性がなかったと結論付けることができると思いますか?
df.repartition(10).count()
データが 10 個の新しいパーティションに再分割され、おそらく複数のワーカー ノードに分割されることを期待して、試してみました。TASKS の数が、指定したパーティションの数に従っていることがわかりました。実行時間の面でパフォーマンスが向上することを期待していました。25〜26秒になりました。
を使用.repartition(20)
したときは、4 分以上実行されていたため、強制終了する必要がありました。
パフォーマンスが低下します。何か間違ったことをしたり、パフォーマンスを向上させるためのステップを逃したりしませんでしたか?
注:これに関するいくつかの優れた既存の投稿を見ましたが、まだ明確にはなりませんでした. したがって、新しいクエリを投稿します。