2

RTextTools を使用して、後でさまざまなドキュメントに適用して分類するマトリックスとモデルを含むトレーニング セットを作成しています。

編集:マトリックスは文書用語マトリックスです

私が抱えている問題はnew_matrix、次の行で作成するときに特定のドキュメントで時々発生することです

new_matrix <- create_matrix(data$document,language="english", removeNumbers=FALSE, removePunctuation=TRUE, removeStopwords=TRUE, toLower=TRUE, stemWords=TRUE, minDocFreq=1,weighting=weightTfIdf,originalMatrix=matrix)

NaNコーパスを失敗させるいくつかの値を取得します

corpus <- create_corpus(new_matrix,data$value, testSize=1:100,virgin=FALSE)

エラーで

Error in .csr.coo(x) : NA/NaN/Inf in foreign function call (arg 4)

なぜいくつかのNaN値があるのか​​ わかりません。私の推測では、元のマトリックスではなく new_matrix に存在するいくつかの単語に関係していると思います。

NaN結果のマトリックスで 0 の値を変更するにはどうすればよいですか?

それを行うと、分類の結果が変わりますか?

どんな助けでも大歓迎です!ありがとう!

4

2 に答える 2

3

is.na() を使用して NaN 値を見つける簡単な方法:

data<-c(1,2,NaN,4,2)
data[is.na(data)]<-0
data

[1] 1 2 0 4 2

于 2012-06-21T19:52:08.943 に答える
0

私は RTextTools の主任開発者です。このエラーの例を送っていただければ幸いです。originalMatrix パラメータは過去 2 か月以内に導入されましたが、その処理方法に関して継続的な問題が発生している可能性があります。私のウェブサイト (http://www.timjurka.com/) にメールを送ってください。

于 2012-07-11T13:07:06.157 に答える