0

Java で Naive Bayes テキスト分類アルゴリズムを実装しています。

これまでに行ったことは、特定のテキスト ファイル (テスト ファイル) からすべての一意の単語を格納する Vocabulary というハッシュセットを宣言することです。

アルゴリズムの手順の 1 つは、テスト ファイルのすべてのメンバーを 1 つのテキスト ファイルに連結することです。これは、各ファイルの単語を含むかなり大きなファイルであることが判明しました。

ここで、連結されたテキスト ファイルを使用して、語彙内の各単語の出現回数をカウントする必要があります。私の最初の推測は、各単語の頻度を含む一種の配列構造を保持することです。しかし、繰り返しになりますが、エントリが多すぎます。

誰かが私にもっと良い提案をしてもらえますか?

4

2 に答える 2

4

単語がキーで、値が出現回数である辞書 (HashMap) を使用します。HashSet がメモリに収まる場合、HashMap もメモリに収まる必要があります。

于 2012-06-03T09:11:04.357 に答える
0

Tries を使用してみると、リーフ ノードに単語の頻度を格納できます。

于 2012-06-03T09:15:13.013 に答える