7

私は(うまくいけば)特定のディレクトリ内のすべてのファイルを比較し、重複を識別してリストに追加し、ユーザーにリストを表示して、削除する前にそれらのファイルを削除することをユーザーが確認できるようにするプログラムに取り組んでいます。真剣に立ち往生しています。これまでのところ、すべてのファイルを再帰的にリストすることができ、重複を見つけるためにそれらを比較することをいじっています。複数のファイル属性を比較する必要があることを達成するために、すぐに気づきました。すべてのファイルがテキストファイルになるわけではなく、インターネット上のサンプルコードに関する限り、テキストの比較はほとんど私が見つけたものです。バイト配列とファイル名の比較が私が得ることができる最高のものであるため、バイナリデータについてもっと学ぼうとしています。で。具体的には私は 重複を見つけて妥当なサイズのディレクトリを処理できるようにする際の精度のバランスをとるために、どの属性を比較するのが最適かを尋ねますか?そして、あなたがそれを私のコードにどのように実装できるかを気にしないのであれば?うまくいけば、私の質問はそれほどひどいものではなかったでしょう、私は私が得ることができるどんな助けにも本当に感謝します。これが私が持っているものです、そしてはい、あなたが疑問に思っている場合に備えて、いくつかのメソッドと私がここで見つけた2番目のファイルです。PS何かを逃した場合、無意味な変数について本当に申し訳ありません。コードを投稿する前に、コードを少しクリーンアップしようとしました。いくつかの方法と、疑問に思っている場合に備えて、ここで見つけた2番目のファイル。PS何かを逃した場合、無意味な変数について本当に申し訳ありません。コードを投稿する前に、コードを少しクリーンアップしようとしました。いくつかの方法と、疑問に思っている場合に備えて、ここで見つけた2番目のファイル。PS何かを逃した場合、無意味な変数について本当に申し訳ありません。コードを投稿する前に、コードを少しクリーンアップしようとしました。

ListFilesInDir.java

import java.io.*;
import java.nio.file.Files;
import java.nio.file.attribute.*;
import java.security.*;
import java.util.*;

public final class ListFilesInDir {

static File startingDir;

static List<File> files;
static List<File> dirs;
static TreeMap<Integer, File> duplicates;
static ArrayList<Integer> usedIndexes = new ArrayList<Integer>();
static ArrayList<File> duplicateList = new ArrayList<File>();

static File out = new File("ListDuplicateFiles.txt");
static PrintWriter output;

static int key = 0;
static String tabString;
static TreeMap<Integer, File> tMap = new TreeMap<Integer, File>();

static int num1 = 0;
static int num2 = 0;
static File value1 = null;
static File value2 = null;
static String path1 = null;
static String name1 = null;
static String path2 = null;
static String name2 = null;

public static void main(String[] args) throws FileNotFoundException {
    new ListFilesInDir(args[0]);
}

public ListFilesInDir(String string) throws FileNotFoundException {
    startingDir = new File(string);
    dirs = new ArrayList<File>();
    duplicates = new TreeMap<Integer, File>();
    output = new PrintWriter(out);

    getFiles(startingDir);
    compareFiles();
    writeDuplicateList();
}

public void getFiles(File root) throws FileNotFoundException {
    System.out.println("Adding files to list...");
    ListFilesInDir.files = getFileList(root);
    for (File file : files) {
        if (!file.isFile()) {
            System.out.println("Adding DIR: " + key + " name: " + file);
            dirs.add(file);
        } else {
            System.out.println("Adding FILE: " + key + " name: " + file);
            tMap.put(key, file);
        }
        key++;
    }
    System.out.println(dirs.size());
    System.out.println("Complete");
}

public static void compareFiles() throws FileNotFoundException {
    System.out.println("Preparing to compare files...");
    for (num1 = 0; num1 < files.size(); num1++) {
        for (num2 = 0; num2 < files.size(); num2++) {

            if (num1 != num2) {
                value1 = files.get(num1);
                value2 = files.get(num2);
                path1 = value1.getAbsolutePath();
                path2 = value2.getAbsolutePath();
                name1 = path1.substring(path1.lastIndexOf(File.separator));
                name2 = path2.substring(path2.lastIndexOf(File.separator));
                HashMap<Integer, File> testMap = new HashMap<Integer, File>();

                System.out.println(num1 + "|" + num2 + " : " + value1
                        + " - " + value2);
                if (CompareBinaries.fileContentsEquals(
                        value1.getAbsolutePath(), value2.getAbsolutePath()) == true) {
                    if (testMap.put(num1, value1) != null) {
                        TreeSet<File> fileTreeSet;
                    }
                    addDuplicate(num1, value1);
                    files.remove(num1);

                    System.out.println("added(binary): " + num1 + ":"
                            + value1);

                } else if (value1.getName().equalsIgnoreCase(
                        value2.getName())) {
                    addDuplicate(num1, value1);
                    files.remove(num1);
                    System.out.println("added(name): " + num1 + ":"
                            + value1);
                }
            }
        }
    }
    System.out.println("Complete");

}

public static void writeDuplicateList() {
    int printKey = 0;
    for (File file : duplicateList) {
        output.printf("%03d | %s\n", printKey, file);
        System.out.printf("%03d | %s\n", printKey, file);
        printKey++;
    }

    output.append(docsInfo());
    output.close();
    output.flush();

    System.out.println("\n"+files.size()+" files in "+startingDir.getAbsolutePath() +", "+duplicateList.size()+" duplicate files.");
}

static public String docsInfo() {
    String s = "\n\n" + files.size() + " files in "
            + startingDir.getAbsolutePath() + ", " + duplicates.size()
            + " duplicate files.";
    return s;
}

static public List<File> getFileList(File file)
        throws FileNotFoundException {
    List<File> result = getUnsortedFileList(file);
    Collections.sort(result);
    return result;
}

static private List<File> getUnsortedFileList(File file)
        throws FileNotFoundException {
    List<File> result = new ArrayList<File>();
    File[] filesAndDirs = file.listFiles();
    List<File> filesDirs = Arrays.asList(filesAndDirs);
    int dirKey = 0;

    for (File fileList : filesDirs) {
        result.add(fileList);
        if (!fileList.isFile()) {

            List<File> deeperList = getUnsortedFileList(fileList);
            result.addAll(deeperList);
        }
    }
    return result;
    }

        static private void validateDir(File dir) throws FileNotFoundException {
    if (dir == null)
        throw new IllegalArgumentException("Directory is null!");
    if (!dir.exists())
        throw new FileNotFoundException("Directory doesn't exist: " + dir);
    if (!dir.isDirectory())
        throw new IllegalArgumentException(dir + "is not a directory!");
    if (!dir.canRead())
        throw new IllegalArgumentException("Directory cannot be read: "
                + dir);
     }

         public static void addDuplicate(int i, File file)throws FileNotFoundException{
          if (!duplicates.containsKey(i)) {
           duplicates.put(i, file);
               duplicateList.add(file);

          }
     }
    }

CompareBinaries.java

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.util.Arrays;


public class CompareBinaries {

private final static int BUFFSIZE = 1024;
private static byte buff1[] = new byte[BUFFSIZE];
private static byte buff2[] = new byte[BUFFSIZE];

public static boolean inputStreamEquals(InputStream is1, InputStream is2) {
    if(is1 == is2) return true;

    if(is1 == null && is2 == null) {
        System.out.println("both input streams are null");
        return true;
    }

    if(is1 == null || is2 == null) return false;
    try {
        int read1 = -1;
        int read2 = -1;

        do {
            int offset1 = 0;
            while (offset1 < BUFFSIZE
                        && (read1 = is1.read(buff1, offset1, BUFFSIZE-offset1)) >= 0) {
                        offset1 += read1;
                }

            int offset2 = 0;
            while (offset2 < BUFFSIZE
                        && (read2 = is2.read(buff2, offset2, BUFFSIZE-offset2)) >= 0) {
                        offset2 += read2;
                }
            if(offset1 != offset2) return false;
            if(offset1 != BUFFSIZE) {
                Arrays.fill(buff1, offset1, BUFFSIZE, (byte)0);
                Arrays.fill(buff2, offset2, BUFFSIZE, (byte)0);
            }
            if(!Arrays.equals(buff1, buff2)) return false;
        } while(read1 >= 0 && read2 >= 0);
        if(read1 < 0 && read2 < 0) return true; // both at EOF
        return false;

    } catch (Exception ei) {
        return false;
    }
}

public static boolean fileContentsEquals(File file1, File file2) {
    InputStream is1 = null;
    InputStream is2 = null;
    if(file1.length() != file2.length()) return false;

    try {
        is1 = new FileInputStream(file1);
        is2 = new FileInputStream(file2);

        return inputStreamEquals(is1, is2);

    } catch (Exception ei) {
        return false;
    } finally {
        try {
            if(is1 != null) is1.close();
            if(is2 != null) is2.close();
        } catch (Exception ei2) {}
    }
}

public static boolean fileContentsEquals(String fn1, String fn2) {
    return fileContentsEquals(new File(fn1), new File(fn2));
}

}

4

3 に答える 3

2

ハッシュ関数を使用して、2つのファイルを比較できます。2つのファイル(異なるフォルダー内)は、同じ名前と属性(長さなど)を持つことができますが、内容は異なります。たとえば、テキストファイルを作成し、それを別のフォルダにコピーして、コンテンツの1文字を変更することができます。

ハッシュ関数は、ファイルのコンテンツに対していくつかの巧妙な計算を行い、最終的には数値になります。コンテンツのわずかな違いでも、2つの非常に異なる数値になります。

たとえば、md5ハッシュ関数を使用すると、任意の長さのバイト配列から16バイトの数値が生成されます。理論的には、同じmd5でコンテンツが異なる2つのファイルを作成することは可能ですが、確率は非常に低くなります(名前とサイズが同じで、コンテンツが異なる2つのファイルは比較的高い確率のイベントです)

重要なのは、ファイルの内容のmd5のテーブルを作成できることです。これは、一度だけ計算する必要があり、すばやく比較できます。md5が異なる場合、ファイルは100%の信頼度で異なります。万が一、md5が同じである場合にのみ、100%確実にするためにバイトごとの比較に頼る必要があります。

于 2012-11-03T12:52:13.870 に答える
1

最近のプロジェクト作業で、SHAアルゴリズムを使用して重複したファイル名とディレクトリを受信することについての良いメモを見つけました。

それを見てください: https ://jakut.is/2011/03/15/a-java-program-to-list-all/

それはあなたにとって役立つかもしれません

于 2013-04-21T17:45:23.037 に答える
1

私の提案:1つのディレクトリツリーをウォークスルーし、名前で他のディレクトリツリーと比較します。次に、一致するペアごとに、ファイルサイズと最終変更時刻を比較し、それがすべて等しい場合は、バイトごとに直接比較します。

これを実装するには、2つのステップがあります(サンプルコードへのリンクを追加した場合)。

  1. 完全なリストを取得するには、両方のディレクトリをウォークスルーします。Javaは、Java7とを使用してこれを高速化しましたFiles.walkFileTree()。1つのディレクトリツリーをたどり、各エントリを他のディレクトリツリーと比較します。私はここにそのような比較のためのいくつかのサンプルコードを投稿しました(私のサンプルコードはこのステップであなたを助けるはずですが、100%あなたの質問に当てはまりません)
  2. 2つのファイルが等しいかどうかを比較します。いくつかのことを比較できます。
    • ファイル名。とにかく2番目のツリーでファイルを見つける必要があるため、これは明らかです。
    • ファイルサイズ、最終変更時間:BasicFileAttributesツリーを歩くときに取得するものの一部です。2番目のファイルで取得する方法については、サンプルコードを参照してください。
    • コンテンツ。上記のように、ある種のcrc、md5、shaを計算できます。何が起こるかというと、両方のファイルの全内容を読むことになります。したがって、ここでの私の提案は、バイトごとに直接比較することです。たとえば、[ Arrays.equals()](http://docs.oracle.com/javase/7/docs/api/java/util/Arrays.html#equals (byte []、byte []))
于 2013-08-14T12:08:18.777 に答える