spam / no-spam に分類されたN 個のドキュメントのコーパスがあります。R でデータを前処理するための標準的な手順に従っています ( code here )。前処理は、重みをtfidfとして使用して終了します。DocumenTermMatrix
ここで、モデルを使用して新しいドキュメントを分類したいと考えています。
単一の新しいドキュメントに対応するDocumentVector
(ドキュメントのtfとコーパスのidfsを使用して)を計算するにはどうすればよいですか? DocumentTermMatrix
コーパス全体の を再計算することは避けたいと思います。