Rでは、次のように表形式データの要約を作成するメモリ効率の良い方法を探しています。
たとえば、data.frame
foo
私がtable()
要約に使用したものを取り、続いas.data.frame()
て頻度カウントを取得します。
foo <- data.frame(x= c('a', 'a', 'a', 'b', 'b', 'b'), y=c('ab', 'ac', 'ad', 'ae', 'fx', 'fy'))
bar <- as.data.frame(table(foo), stringsAsFactors=F)
これにより、次の頻度カウントが得られますbar
x y Freq
1 a ab 1
2 b ab 0
3 a ac 1
4 b ac 0
5 a ad 1
6 b ad 0
7 a ae 0
8 b ae 1
9 a fx 0
10 b fx 1
11 a fy 0
12 b fy 1
私が直面している問題は、x
とのレベルが多くy
、64 GB を超える大量のメモリを使い始めることです。この種の頻度カウントを行う別の方法があるかどうか疑問に思っていました。最初のステップとして を設定stringsAsFactors=F
しましたが、これで問題が完全に解決するわけではありません。