RTextTools を使用して、後でさまざまなドキュメントに適用して分類するマトリックスとモデルを含むトレーニング セットを作成しています。
編集:マトリックスは文書用語マトリックスです
私が抱えている問題はnew_matrix
、次の行で作成するときに特定のドキュメントで時々発生することです
new_matrix <- create_matrix(data$document,language="english", removeNumbers=FALSE, removePunctuation=TRUE, removeStopwords=TRUE, toLower=TRUE, stemWords=TRUE, minDocFreq=1,weighting=weightTfIdf,originalMatrix=matrix)
NaN
コーパスを失敗させるいくつかの値を取得します
corpus <- create_corpus(new_matrix,data$value, testSize=1:100,virgin=FALSE)
エラーで
Error in .csr.coo(x) : NA/NaN/Inf in foreign function call (arg 4)
なぜいくつかのNaN
値があるのか わかりません。私の推測では、元のマトリックスではなく new_matrix に存在するいくつかの単語に関係していると思います。
NaN
結果のマトリックスで 0 の値を変更するにはどうすればよいですか?
それを行うと、分類の結果が変わりますか?
どんな助けでも大歓迎です!ありがとう!