私は、約 85,000 のツイートの非常に大きなコーパスを操作して、テレビ コマーシャルのダイアログと比較しようとしています。ただし、コーパスのサイズが原因で、「エラー: サイズ n のベクトルを割り当てることができません」というメッセージ (私の場合は 26 GB) を取得せずに余弦類似度測定を処理できません。
大量のメモリを搭載したサーバーで既に R 64 ビットを実行しています。また、メモリが最も多いサーバー (244 GB) で AWS を使用しようとしましたが、役に立ちませんでした (同じエラー)。
fread のようなパッケージを使用してこのメモリ制限を回避する方法はありますか? それとも、データを分割する方法を考え出す必要がありますか? 助けてくれてありがとう、私は以下のコードを追加しました:
x <- NULL
y <- NULL
num <- NULL
z <- NULL
ad <- NULL
for (i in 1:nrow(ad.corp$documents)){
num <- i
ad <- paste("ad.num",num,sep="_")
x <- subset(ad.corp, ad.corp$documents$num== yoad)
z <- x + corp.all
z$documents$texts <- as.character(z$documents$texts)
PolAdsDfm <- dfm(z, ignoredFeatures = stopwords("english"), groups = "num",stem=TRUE, verbose=TRUE, removeTwitter=TRUE)
PolAdsDfm <- tfidf(PolAdsDfm)
y <- similarity(PolAdsDfm, ad, margin="documents",n=20, method = "cosine", normalize = T)
y <- sort(y, decreasing=T)
if (y[1] > .7){assign(paste(ad,x$documents$texts,sep="--"), y)}
else {print(paste(ad,"didn't make the cut", sep="****"))}
}