非常に基本的な質問があります。トレーニング用とテスト用の 2 セットのドキュメントがあります。トレーニング ドキュメントを使用してロジスティック回帰分類器をトレーニングしたいと考えています。自分が正しいことをしているか知りたい。
- 最初に、トレーニング ドキュメント内のすべての一意の単語のリストを見つけて、それを語彙と呼びます。
- 語彙の各単語について、すべてのトレーニング ドキュメントでその TFIDF を見つけます。ドキュメントは、これらの TFIDF スコアのベクトルとして表されます。
私の質問は次のとおりです。 1. テスト ドキュメントをどのように表現しますか? たとえば、テスト ドキュメントの 1 つに語彙に含まれる単語が含まれていないとします。その場合、TFIDF スコアは、そのドキュメントの語彙のすべての単語でゼロになります。
- スパース ベクトル形式を使用する LIBSVM を使用しようとしています。ベクトル表現ですべてのエントリが 0 に設定されている上記のドキュメントの場合、どのように表現すればよいでしょうか?