0

良いカテゴリと悪いカテゴリに分けられたドキュメントのセットがあります。新しいドキュメントがどのカテゴリに分類されるかを予測できるようにしたいと考えています。私が注目していることの 1 つは、各カテゴリを最もよく定義する用語を見つけて、新しいドキュメントでそれらの用語を探すことです。

少し前に、TF-IDF について学んだときに、Lucene 用語ベクトルを使用して Mahout クラスタリングをいじっていました。私が探しているのは、あるカテゴリから TermFrequency を見つけて、他のカテゴリでそれらの用語の InverseDocumentFrequency を適用するようなものだと思います。

これらのグループのいずれかでドキュメントを一意に定義し、他のグループでは定義しない用語を見つけるための最良のアプローチを知っている人はいますか?

4

2 に答える 2

0

私のお勧めは、Mahout のBayesian classifierを使用することです。ドキュメントに「良い」または「悪い」というラベルを付けると、Mahout はトレーニングされていないドキュメントのラベルを予測できるようになります。ウィキペディアには、ベイズ分類器に関する詳細があります。

Lucene データは mahout への入力として使用できます。たとえば、このブログ投稿シリーズを参照してください。

于 2012-03-08T23:46:41.623 に答える
0

これに似た状況では、条件の異なる確率の比率を扱う作業がよく行われます。

したがって、あなたの場合は次のようになります。

P(w|良い) / P(w)

そしてそれでランク付けします。

推定値は、カウントからの最尤推定値になります。

P(w|良い) = n(w,良い) / n(良い)

P(w) = n(w) / N = n(w) / (n(良い) + n(悪い))

N はコーパス全体のトークン数、n(*) は制限付きのトークン数です。

于 2012-03-09T10:29:57.360 に答える