Java で Naive Bayes テキスト分類アルゴリズムを実装しています。
これまでに行ったことは、特定のテキスト ファイル (テスト ファイル) からすべての一意の単語を格納する Vocabulary というハッシュセットを宣言することです。
アルゴリズムの手順の 1 つは、テスト ファイルのすべてのメンバーを 1 つのテキスト ファイルに連結することです。これは、各ファイルの単語を含むかなり大きなファイルであることが判明しました。
ここで、連結されたテキスト ファイルを使用して、語彙内の各単語の出現回数をカウントする必要があります。私の最初の推測は、各単語の頻度を含む一種の配列構造を保持することです。しかし、繰り返しになりますが、エントリが多すぎます。
誰かが私にもっと良い提案をしてもらえますか?