私はRの初心者で、遭遇した問題について質問があります。
- 非常に大きなデータセット (約 80 万行)
- このデータセットには、米国の 90 年代の政治家へのすべての貢献がリストされています
データをクリーニングした後、リストをより管理しやすいサイズに縮小する必要がありました。複数回寄付してくださった寄稿者に興味があるので、データセットのサイズをそのように制限することにしました。
データセットは「cont」としてロードされます
私の意図:
言及頻度のマッピング:
> table(cont$contributor_name) -> FreqCon > subset(FreqCon,Freq>4) -> FMI
サブセット化する必要があるかどうかについてTRUEまたはFALSEとなる「include」という名前の追加の列をcont [、43]として挿入します
for(i in 1:dim(FMI)[1]){ + ifelse(cont[i,11] %in% FMI[,1],cont[i,43] <- TRUE, cont[i,43] <- FALSE) }
以下に基づいてデータセットをサブセット化します
cont$include
それがすべての関連情報であることを願っています。必要に応じて、さらに情報を提供させていただきます。また:cont[,11] = cont$contributor_name
問題点: 現在、Rは非常に熱心に取り組んでいますが、コラムの内容は何も変わっていないようです。warnings()
エラーが発生しないため、何が間違っているのか混乱しています。
たぶん私は車輪を再発明しようとしているので、私がやろうとしていることを達成する方法は大歓迎です!