0

train_dtm という名前の DocumentTermMatrix があり、すべてのドキュメントで用語頻度の頻度カウントを正規化したいと考えています。私が直面している問題は、R.

以下は私が使用している方法です:

docs_dtm <- DocumentTermMatrix(docs)

ここで、上記の documenttermmatrix の行を正規化します。を介して制御パラメーターを追加しようとしました

docs_dtm <- DocumentTermMatrix(docs, control=list(weighting = function(x) weightTf(x, normalize=TRUE)))

しかし、上記の呼び出しはエラーをスローします

Error in weightTf(x, normalize=TRUE): unused argument (normalize = TRUE)

apply() メソッドを使用して train_dtm の値を正規化するメソッドを作成しましたが、DocumentTermMatrix 型の行列を返しません。

上記のタスクを達成する別の方法はありますか?

4

2 に答える 2

0

dtm の作成後に正規化します。

docs_dtm_norm <- t(apply(docs_dtm, 1, function(x) x/sqrt(sum(x^2))))
于 2018-12-04T15:09:49.443 に答える