21

data.table の各行に関数を効率的に適用する方法を探しています。次のデータ テーブルを考えてみましょう。

library(data.table)
library(stringr)

x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

列の各要素をbスペースで分割し (元のデータの各行に対して 2 つの行を生成)、結果のデータ テーブルを結合するとします。上記の例では、次の結果が必要です。

   a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19

aに一意の値しかない場合、次のようになります。

x[, list(str_split(b, ' ')[[1]]), by = a]

はほとんど機能しますが (元のデータ テーブルに同一の行がいくつかある場合を除きます)、x多くの列があり、列 b を結果にコピーすると見苦しくなります。これは避けたいと思います。

>     x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
   a     b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19

この問題を解決するための最も効率的で慣用的な方法は何でしょうか?

4

7 に答える 7

14

どうですか :

x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))]
   a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19

コメントが与えられた一般化されたソリューション:

x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]
于 2013-03-28T13:51:01.393 に答える
4
x[, .(a,strsplit(b,' ')), by=1:nrow(x)]

by=nrow(x)グループごとに1行を強制する簡単な方法です

于 2016-09-11T19:59:12.493 に答える
2

1つのオプションは、行番号を追加することです

x[, r := 1:nrow(x)]

次にグループ化しrます:

x[, list(a, str_split(b, ' ')[[1]]), by = r]

より良い解決策があるかどうか疑問に思っていますか?

于 2013-03-28T03:28:45.920 に答える
2

最も効果的で慣用的なアプローチは、関数をベクトル化することです。

この場合、ある種のregexものがあなたが望むことをします

 x[, V1 := gsub(" [[:alnum:]]*", "", b)]

   a     b V1
1: 1 12 13 12
2: 2 14 15 14
3: 3 16 17 16
4: 1 18 19 18

各分割コンポーネントを返したい場合で、それぞれに 2 つあることがわかっている場合は、 を使用Mapして結果をstrsplit正しい形式に変換できます。

x[, c('b1','b2')  := do.call(Map, c(f = c, strsplit(b, ' ')))]



x
   a     b b1 b2
1: 1 12 13 12 13
2: 2 14 15 14 15
3: 3 16 17 16 17
4: 1 18 19 18 19
于 2013-03-28T03:28:57.783 に答える
0

入力と目的の出力を見ると、これは機能するはずです-

x <- data.frame(a=c(1,2,3,1),b=c("12 13","14 15","16 17","18 19"))
data.frame(a=rep(x$a,each=2), new_b=unlist(strsplit(as.character(x$b)," ")))
于 2013-03-28T04:07:24.477 に答える