java - ドキュメント内の単語数の頻度

Question

1000 個の txt.files があるディレクトリがあります。1000 個のドキュメントで単語が何回出現するかを知りたいです。つまり、「牛」という単語が X で 100 回出現したとしても、1 回としてカウントされます。別のドキュメントで発生した場合は、1 ずつ増加します。したがって、すべてのドキュメントに「cow」が含まれている場合、最大値は 1000 です。他の外部ライブラリを使用せずにこれを簡単に行うにはどうすればよいですか。これが私がこれまでに持っているものです

     private Hashtable<String, Integer> getAllWordCount()
     private Hashtable<String, Integer> getAllWordCount()
    {
        Hashtable<String, Integer> result = new Hashtable<String, Integer>();
        HashSet<String> words = new HashSet<String>();
        try {   
            for (int j = 0; j < fileDirectory.length; j++){
                File theDirectory = new File(fileDirectory[j]);
                File[] children = theDirectory.listFiles();

                for (int i = 0; i < children.length; i++){
                    Scanner scanner = new Scanner(new FileReader(children[i]));

                    while (scanner.hasNext()){
String text = scanner.next().replaceAll("[^A-Za-z0-9]", "");
                        if (words.contains(text) == false){
                            if (result.get(text) == null)
                                result.put(text, 1);
                            else
                                result.put(text, result.get(text) + 1);
                            words.add(text);
                        }
                    }
                }
                words.clear();
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        System.out.println(result.size());
        return result;
    }

score 2 · Accepted Answer

HashSet<String>また、現在のファイルから読み取った一意の単語を格納するも必要です。

次に、すべての単語を読み取った後、それがセット内にあるかどうかを確認し、そうでない場合は、resultマップ内の対応する値をインクリメントし (または、既に行っているように空の場合は新しいエントリを追加します)、その単語を設定。

ただし、新しいファイルの読み取りを開始するときは、セットをリセットすることを忘れないでください。

score 0 · Accepted Answer

これはどう？

private Hashtable<String, Integer> getAllWordCount()
{
    Hashtable<String, Integer> result = new Hashtable<String, Integer>();
    HashSet<String> words = new HashSet<String>();
    try {   
        for (int j = 0; j < fileDirectory.length; j++){
            File theDirectory = new File(fileDirectory[j]);
            File[] children = theDirectory.listFiles();
            for (int i = 0; i < children.length; i++){
                Scanner scanner = new Scanner(new FileReader(children[i]));
                while (scanner.hasNext()){
                    String text = scanner.next().replaceAll("[^A-Za-z0-9]", "");
                    words.add(text);
                }
                for (String word : words) {
                  Integer count = result.get(word)
                  if (result.get(word) == null) {
                    result.put(word, 1);
                  } else {
                    result.put(word, result.get(word) + 1);
                  }
                }
                words.clear();
            }
        }
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
    System.out.println(result.size());
    return result;
}

java - ドキュメント内の単語数の頻度

2 に答える 2

Related

Reference