r - r パッケージ tm() を使用したテキストマイニング: "if (vectorized && (length <= 0)) でエラーが発生しました"

Question

テキストを含むデータフレームで tm() を使用しようとしていますが、このエラーが表示され続けます。"Error in if (vectorized && (length <= 0)) stop("vectorized sources must have positive length") : missing value where TRUE/FALSE needed"

次のようなデータフレームがあります。

     person sex adult                                 state code
1         sam   m     0         Computer is fun. Not too fun.   K1
2        greg   m     0               No it's not, it's dumb.   K2
3     teacher   m     1                    What should we do?   K3
4         sam   m     0                  You liar, it stinks!   K4
5        greg   m     0               I am telling the truth!   K5
6       sally   f     0                How can we be certain?   K6
7        greg   m     0                      There is no way.   K7
8         sam   m     0                       I distrust you.   K8
9       sally   f     0           What are you talking about?   K9
10 researcher   f     1         Shall we move on?  Good then.  K10
11       greg   m     0 I'm hungry.  Let's eat.  You already?  K11

私はこれらのコードのみを使用します:

library(tm)
texts <- as.data.frame(texts)
mycorpus<- Corpus(DataframeSource(texts))

ここで何がうまくいかないのか、誰かが考えを持っていますか? よろしくお願いします！

score 0 · Accepted Answer

これがあなたが探しているものであることを願っています

xkcd.df <- read.csv(file.path(path, datafiles))
xkcd.corpus <- Corpus(DataframeSource(data.frame(xkcd.df[, 3])))

score 0 · Accepted Answer

テキストの列のコーパスを作成する必要があるようです (この場合、分離する必要がある州コードの列とマージされているようです)。状態コードが tm パッケージに使用する列であると仮定すると、私が間違っていなければ、(データフレーム全体ではなく) 列をコーパスにプルする必要があります。提供した情報を使用して、そうしたい場合は、コードは次のようになります。

mycorpus<- Corpus(VectorSource(texts$state code))

テキストを州コードから分離する必要がある場合は、「テキスト」が新しい列であると仮定します。

mycorpus<- Corpus(VectorSource(texts$text))

r - r パッケージ tm() を使用したテキスト マイニング: "if (vectorized && (length <= 0)) でエラーが発生しました"

2 に答える 2

Related

Reference

r - r パッケージ tm() を使用したテキストマイニング: "if (vectorized && (length <= 0)) でエラーが発生しました"