良いカテゴリと悪いカテゴリに分けられたドキュメントのセットがあります。新しいドキュメントがどのカテゴリに分類されるかを予測できるようにしたいと考えています。私が注目していることの 1 つは、各カテゴリを最もよく定義する用語を見つけて、新しいドキュメントでそれらの用語を探すことです。
少し前に、TF-IDF について学んだときに、Lucene 用語ベクトルを使用して Mahout クラスタリングをいじっていました。私が探しているのは、あるカテゴリから TermFrequency を見つけて、他のカテゴリでそれらの用語の InverseDocumentFrequency を適用するようなものだと思います。
これらのグループのいずれかでドキュメントを一意に定義し、他のグループでは定義しない用語を見つけるための最良のアプローチを知っている人はいますか?