〜50000のクラスターのリストと、各クラスターに多数の要素(合計で〜1,000万のエントリ)が存在する入力ファイルがあります。以下の小さな例を参照してください。
set.seed(1)
x = paste("cluster-",sample(c(1:100),500,replace=TRUE),sep="")
y = c(
paste("factor-",sample(c(letters[1:3]),300, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[1]),100, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[2]),50, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[3]),50, replace=TRUE),sep="")
)
data = data.frame(cluster=x,factor=y)
別の質問から少し助けを借りて、次のような要因の共起の円グラフを作成することができました。
counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse='+'))))
pie(counts[counts>1])
しかし、今、私は要因の共起のためのベン図を持ちたいと思います。理想的には、各要素の最小カウントのしきい値を取ることができる方法でも。たとえば、さまざまな要因のベン図。考慮に入れるには、各要因が各クラスターにn>10存在する必要があります。
集計を使用してテーブルカウントを生成する方法を見つけようとしましたが、機能させることができませんでした。