5

ドキュメント分類でIDF(逆ドキュメント頻度)を計算することに疑問があります。トレーニング用の複数のドキュメントを含む複数のカテゴリがあります。次の式を使用して、ドキュメント内の各用語のIDFを計算しています。

IDF(t,D)=log(Total Number documents/Number of Document matching term);

私の質問は次のとおりです。

  1. 「コーパス内のドキュメントの総数」とはどういう意味ですか?ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
  2. 「ドキュメント一致用語の数」とはどういう意味ですか?用語一致ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
4

2 に答える 2

9

Total Number documents in Corpusコーパスにあるドキュメントの量です。したがって、20のドキュメントがある場合、この値は20です。

Number of Document matching term用語tが出現するドキュメントの数です。したがって、合計20のドキュメントがあり、その用語tが15のドキュメントに含まれている場合、の値Number of Documents matching termは15になります。

したがって、この例の値は次のようになります。IDF(t,D)=log(20/15) = 0.1249

私が正しければ、ドキュメントごとに複数のカテゴリがあり、これらのカテゴリの1つ以上で新しいドキュメントを分類できるようにしたいと考えています。これを行う1つの方法は、カテゴリごとに1つのドキュメントを作成することです。各カテゴリドキュメントには、このカテゴリでラベル付けされたすべてのテキストが含まれている必要があります。tf*idfその後、これらのドキュメントで実行できます。

次に、新しいドキュメントを分類する簡単な方法は、カテゴリごとに計算されたさまざまな用語値を使用してクエリの用語値を合計することで実現できます。製品の計算に使用された用語の値が最高の結果をもたらすカテゴリは、1位にランク付けされます。

idf別の可能性は、クエリ内の各用語のを使用してクエリのベクトルを作成することです。クエリで発生しないすべての用語には、の値が与えられます0。次に、クエリベクトルを、たとえばコサイン類似度を使用して、各カテゴリベクトルとの類似性について比較できます。

平滑化は、コーパスで発生しないクエリ内の単語を処理するための便利な手法でもあります。

Christopher D. Manning、Prabhakar Raghavan、HinrichSchützeによる「情報検索の概要」のセクション6.2と6.3を読むことをお勧めします。

于 2012-08-14T09:18:10.593 に答える
0

用語頻度-逆ドキュメント頻度を説明する小さな投稿をここに書きました:http://bigdata.devcodenote.com/2015/04/tf-idf-term-frequency-inverse-document.html

投稿の抜粋は次のとおりです。

TF-IDFは、ドキュメントの分類で広く使用されている最も基本的なメトリックです。これらの用語を定義してみましょう。

用語の頻度は、基本的に、ドキュメント内の他の単語と比較して、ドキュメント内の特定の単語の出現頻度に重要です。

一方、逆ドキュメントの頻度は、特定のコレクション(さまざまなカテゴリに分類したいドキュメントの)のすべてのドキュメントでの単語の出現に重要です。

于 2015-04-17T03:47:51.467 に答える