何らかの種類の R データ構造に格納したい混合型データがあります。各データ ポイントには、1 次元の数値、係数、または文字などの固定属性のセットと、可変長データのセットがあります。例えば:
id phrase num_tokens token_lengths
1 "hello world" 2 5 5
2 "greetings" 1 9
3 "take me to your leader" 4 4 2 2 4 6
実際の値はすべて互いに計算できるわけではありませんが、それはデータの特徴です。私がやりたい操作には、ブール関数に基づいたデータのサブセット化が含まれます (たとえば、nchar(data$phrase) > 10
またはのようなものlapply(data$token_lengths, length) > 2)
です。また、可変長部分の値にインデックスを付けて平均化することもできます。これは機能しませんが、何かお気に入り:mean(data$token_lengths[1], na.rm=TRUE))
「token_lengths」を配列にすることで data.frame にシューホーンできることがわかりました。
d <- data.frame(id=c(1,2,3), ..., token_lengths=as.array(list(c(5,5), 9, c(4,2,2,4,6)))
しかし、これが最善の方法ですか?