0

非常に基本的な質問があります。トレーニング用とテスト用の 2 セットのドキュメントがあります。トレーニング ドキュメントを使用してロジスティック回帰分類器をトレーニングしたいと考えています。自分が正しいことをしているか知りたい。

  1. 最初に、トレーニング ドキュメント内のすべての一意の単語のリストを見つけて、それを語彙と呼びます。
  2. 語彙の各単語について、すべてのトレーニング ドキュメントでその TFIDF を見つけます。ドキュメントは、これらの TFIDF スコアのベクトルとして表されます。

私の質問は次のとおりです。 1. テスト ドキュメントをどのように表現しますか? たとえば、テスト ドキュメントの 1 つに語彙に含まれる単語が含まれていないとします。その場合、TFIDF スコアは、そのドキュメントの語彙のすべての単語でゼロになります。

  1. スパース ベクトル形式を使用する LIBSVM を使用しようとしています。ベクトル表現ですべてのエントリが 0 に設定されている上記のドキュメントの場合、どのように表現すればよいでしょうか?
4

1 に答える 1

2

目に見えないドキュメントに対して TF IDF 変換を実行するには、トレーニング コーパスに関する十分な情報を保存する必要があります。これは、トレーニング コーパス内の用語のドキュメント頻度が必要になることを意味します。テスト ドキュメントで目に見えない単語を無視しても問題ありません。とにかく、あなたのsvmはそれらの重みを学習しません。トレーニング ディストリビューションとテスト ディストリビューションが類似している場合、テスト コーパスで目に見えない用語はめったに発生しないことに注意してください。したがって、いくつかの用語が削除されたとしても、ドキュメントを分類するための用語はまだたくさんあります。

于 2012-12-22T04:28:22.950 に答える