ドキュメントのテキストから可能性の高いキーワードを抽出するアルゴリズムを作成しています。単語のインスタンスをカウントし、上位 5 つをキーワードとして取得したいと考えています。明らかに、すべてのドキュメントが「the」と「and」を主要なキーワードとして使用しないように、「意味のない」単語を除外したいと考えています。
テストに使用して成功した戦略は次のとおりです。
exclusions = new ArrayList<String>();
exclusions.add("a","and","the","or");
実際のテストを行いたいので、私の除外リストは 200 語近くあります。次のようなことができるようになりたいと思っています。
exclusions = new ArrayList<String>();
exclusions.add(each word in foo.txt);
長期的には、(コードに埋め込まれたリストではなく)外部リストを維持することが望ましい理由は明らかです。Java にはすべてのファイルの読み取り/書き込みメソッドがあり、これが実行できることはかなり確信していますが、検索結果が空になりました...間違ったキーワードで検索しなければならないことはわかっています。外部リストを処理に含めるエレガントな方法を知っている人はいますか?