19

ディレクトリツリー全体で多くの重複ファイルを含むかなり大きなフォルダー (〜 10GB) があります。これらのファイルの多くは 10 回複製されています。複製されたファイルは並んで存在しませんが、異なるサブディレクトリ内にあります。

フォルダを圧縮して十分に小さくするにはどうすればよいですか?

Winrar を「ベスト」モードで使用しようとしましたが、まったく圧縮されませんでした。(かなり奇妙)

zip\tar\cab\7z\ 他の圧縮ツールの方が優れていますか?

ツールを数時間動作させてもかまいませんが、それ以上は問題ありません。

私はむしろプログラムで自分でそれをしません

4

6 に答える 6

10

7-zip は、重複を検出して「圧縮」する「WIM」ファイル形式をサポートしています。7-zip GUI を使用している場合は、「wim」ファイル形式を選択するだけです。

コマンドライン 7-zip を使用している場合のみ、この回答を参照してください。 https://serverfault.com/questions/483586/backup-files-with-many-duplicated-files

于 2016-09-03T11:44:50.567 に答える
6

私が試した3つのオプションを提案します(Windowsで):

  1. 辞書サイズ 1536Mb の 7zip LZMA2 圧縮
  2. WinRar「ソリッド」ファイル
  3. 7zip WIM ファイル

合計サイズが 1Gb (フォルダーあたり平均 100Mb)の異なるバージョンの Web サイト ( .php.html.js.css.jpeg.sqlなどのファイル) を含む 10 個のフォルダーがありました。標準の 7zip または WinRar 圧縮では約 400/500Mb のファイルが得られましたが、これらのオプションでは (1) 80Mb、(2) 100Mb、(3) 170Mb のファイルがそれぞれ得られました。

編集の更新: コメントでの @Griffin の提案のおかげで、7zip WIM ファイルで 7zip LZMA2 圧縮 (辞書のサイズに違いはないようです) を使用しようとしました。残念ながら、これは数年前のテストで使用したバックアップ ファイルとは異なりますが、WIM ファイルをそのサイズの 70% で圧縮できました。特定のファイル セットを使用してこの 2 ステップの方法を試し、方法 1 と比較します。

新しい編集: バックアップが増えていて、今では多くの画像ファイルがあります。このサイトには 30 のバージョンがあり、方法 1 の重量は 6Gbですが、7zip LZMA2 ファイル内の 7zip WIM ファイルの重量はわずか 2Gb です。

于 2016-11-02T20:06:16.933 に答える
4

複製されたファイルは同じ名前ですか? 通常、サイズは 64 MB 未満ですか? 次に、ファイル名で (パスなしで) 並べ替え、 を使用tarしてすべてのファイルをその順序でファイルにアーカイブし.tar、次に を使用xzして圧縮して.tar.xz圧縮アーカイブを作成する必要があります。ファイル内で隣接し、使用されている圧縮レベル.tarのウィンドウ サイズよりも小さい重複ファイルは、ほとんど何も圧縮されません。このマニュアルページxzで、圧縮レベルの辞書サイズ「DictSize」を確認できます。256 KB から 64 MB の範囲です。xz

于 2014-12-13T18:55:06.700 に答える
3

WinRARは、デフォルトで各ファイルを個別に圧縮します。したがって、多くの類似または同一のファイルをデフォルトで含むフォルダ構造を圧縮しても、実質的なメリットはありません。

ただし、しっかりしたアーカイブを作成するオプションもあります。WinRARのヘルプを開き、 [コンテンツ] タブで [アーカイブの種類とパラメーター] の項目を開き、[ Solid archive ] をクリックします。このヘルプ ページでは、ソリッド アーカイブとは何か、このアーカイブ ファイル形式の利点と欠点について説明します。

より大きなディクショナリ サイズと最適な圧縮を組み合わせた堅牢なアーカイブは、類似ファイルのリストを含むアーカイブ ファイルを非常に小さくすることができます。たとえば、ファイル サイズが 22 KB から 453 KB の 327 個のバイナリ ファイルのリストがあり、パーティションのクラスター サイズを含めずに合計 47 MB​​ あります。これらの 327 個の似ているが同一ではないファイルを、わずか 193 KB の辞書サイズ 4 MB の RAR アーカイブに圧縮できます。もちろん、これはサイズの劇的な縮小です。

ソリッド アーカイブに関するヘルプ ページを読んだ後、 rarfiles.lstに関するヘルプ ページへのリンクをたどってください。ファイルがソリッド アーカイブに配置される順序を制御する方法について説明します。このファイルはWinRARのプログラム ファイル フォルダにあり、もちろん必要に応じてカスタマイズできます。

WinRARの GUI バージョンを使用する場合は、オプションFiles to store without compressionにも注意する必要があります。このオプションは、[ファイル] タブの [シンボル/コマンドの追加] をクリックした後に表示されます。*.png、*.jpg、*.zip、*.rar など、圧縮せずにアーカイブに保存される特定のファイル タイプがあります。これらのファイルには通常、圧縮形式のデータが既に含まれているため、圧縮されません。それらをもう一度圧縮することは非常に理にかなっています。ただし、フォルダ構造に重複した *.jpg が存在し、しっかりしたアーカイブが作成される場合は、このオプションからすべてのファイル拡張子を削除するのが理にかなっています。

Rar.exeコンソール バージョンのWinRARを使用し、RAR5 アーカイブ ファイル形式を使用する場合の適切なコマンド ラインは次のようになります。

"%ProgramFiles%\WinRAR\Rar.exe a -@ -cfg- -ep1 -idq -m5 -ma5 -md128 -mt1 -r -s -tl -y -- "%UserProfile%\ArchiveFileName.rar" "%UserProfile%\FolderToArchive\"

この例で使用されているスイッチは、 WinRARの program files ディレクトリにRar.exeあるテキスト ファイルのマニュアルで説明されています。ページ上のWinRARのヘルプで説明されているように、スイッチを置き換えて使用することもできます最後のメニューから開いたアルファベット順のスイッチ リスト最初のメニュー項目をクリックしてヘルプヘルプ トピックと最初のタブで展開リスト項目の内容コマンド ライン モードと次のサブリスト アイテムスイッチと最初のアイテムをクリックすると、アルファベット順のスイッチ リストが表示されます。Rar.txtWinRAR.exe-idq-ibck

ちなみに、Total CommanderUltraFinderUltraCompareなどのアプリケーションや、同じ名前で同じサイズのファイルを見つける、または最も安全な、同じサイズで同じファイルを見つけるなど、さまざまなユーザー設定可能な基準による重複ファイルの検索をサポートする多くのアプリケーションがあります。コンテンツ、および重複を削除する機能を提供します。

于 2014-12-13T13:32:37.750 に答える
0

www.exdupe.com から eXdupe を試してみてください。これは重複排除を使用し、非常に高速であるため、実質的にディスク I/O バウンドです。

于 2014-12-13T09:50:28.570 に答える