Total Number documents in Corpus
コーパスにあるドキュメントの量です。したがって、20のドキュメントがある場合、この値は20
です。
Number of Document matching term
用語t
が出現するドキュメントの数です。したがって、合計20のドキュメントがあり、その用語t
が15のドキュメントに含まれている場合、の値Number of Documents matching term
は15になります。
したがって、この例の値は次のようになります。IDF(t,D)=log(20/15) = 0.1249
私が正しければ、ドキュメントごとに複数のカテゴリがあり、これらのカテゴリの1つ以上で新しいドキュメントを分類できるようにしたいと考えています。これを行う1つの方法は、カテゴリごとに1つのドキュメントを作成することです。各カテゴリドキュメントには、このカテゴリでラベル付けされたすべてのテキストが含まれている必要があります。tf*idf
その後、これらのドキュメントで実行できます。
次に、新しいドキュメントを分類する簡単な方法は、カテゴリごとに計算されたさまざまな用語値を使用してクエリの用語値を合計することで実現できます。製品の計算に使用された用語の値が最高の結果をもたらすカテゴリは、1位にランク付けされます。
idf
別の可能性は、クエリ内の各用語のを使用してクエリのベクトルを作成することです。クエリで発生しないすべての用語には、の値が与えられます0
。次に、クエリベクトルを、たとえばコサイン類似度を使用して、各カテゴリベクトルとの類似性について比較できます。
平滑化は、コーパスで発生しないクエリ内の単語を処理するための便利な手法でもあります。
Christopher D. Manning、Prabhakar Raghavan、HinrichSchützeによる「情報検索の概要」のセクション6.2と6.3を読むことをお勧めします。