約 30 の単語と一連の記事を含むストップ ワードのリストがあります。
各記事を解析して、それらのストップ ワードを削除したいと考えています。
それを行う最も効率的な方法が何であるかはわかりません。
たとえば、停止リストをループして、記事内の単語が存在する場合は空白で置き換えることができますが、うまくいきません。
ありがとう
約 30 の単語と一連の記事を含むストップ ワードのリストがあります。
各記事を解析して、それらのストップ ワードを削除したいと考えています。
それを行う最も効率的な方法が何であるかはわかりません。
たとえば、停止リストをループして、記事内の単語が存在する場合は空白で置き換えることができますが、うまくいきません。
ありがとう
java.util.Set
言葉を置き換えるのは非効率的です。おそらく最善の策は、記事を単語ごとに解析し、各単語を新しい StringBuffer にコピーすることです。ストップワードでない限り、その場所に必要なものをコピーします。ここでは、StringBuffer は String よりもはるかに効率的です。
ストップワードが 30 程度しかない場合、ストップワードをどのように保存するかはおそらく重要ではありません。セットはおそらく良い賭けです。
Sun Java Tutorialsによると、Perl 互換の\b
区切り文字を正規表現で使用できます。単語をそれらで囲むと、句読点や空白が前後にあるかどうかに関係なく、その単語のみに一致します。
入力から単語を読み取り、それがストップ ワードのリストにない場合にのみ、StringBuilder (または結果を配置する場所) にコピーします。ストップ ワードを HashTable のようなものに入れると、より速く検索できます。
編集:おっと、私が何を考えていたのかわかりませんが、HashTable(または他の辞書)ではなく、セットが必要です。