java - ハッシュセット内の各単語がテキストドキュメントで出現する回数を見つける

Question

Java で Naive Bayes テキスト分類アルゴリズムを実装しています。

これまでに行ったことは、特定のテキストファイル (テストファイル) からすべての一意の単語を格納する Vocabulary というハッシュセットを宣言することです。

アルゴリズムの手順の 1 つは、テストファイルのすべてのメンバーを 1 つのテキストファイルに連結することです。これは、各ファイルの単語を含むかなり大きなファイルであることが判明しました。

ここで、連結されたテキストファイルを使用して、語彙内の各単語の出現回数をカウントする必要があります。私の最初の推測は、各単語の頻度を含む一種の配列構造を保持することです。しかし、繰り返しになりますが、エントリが多すぎます。

誰かが私にもっと良い提案をしてもらえますか?

score 4 · Accepted Answer

単語がキーで、値が出現回数である辞書 (HashMap) を使用します。HashSet がメモリに収まる場合、HashMap もメモリに収まる必要があります。

score 0 · Accepted Answer

0

Tries を使用してみると、リーフノードに単語の頻度を格納できます。

于 2012-06-03T09:15:13.013 に答える

java - ハッシュセット内の各単語がテキスト ドキュメントで出現する回数を見つける