次のようなデータがあります。
duration obs another
1 1.801760 ID: 10 DAY: 6/10/13 S orange
2 1.868500 ID: 10 DAY: 6/10/13 S green
3 0.233562 ID: 10 DAY: 6/10/13 S yellow
4 5.538760 ID:96 DAY: 6/8/13 T yellow
5 3.436700 ID:96 DAY: 6/8/13 T blue
6 0.533856 ID:96 DAY: 6/8/13 T pink
7 2.302250 ID:96 DAY: 6/8/13 T orange
8 2.779420 ID:96 DAY: 6/8/13 T green
実際には私のデータには多くの変数がありますが、3 つの変数だけを含めました。私の問題は、見苦しい「obs」変数を扱うことです。これらのデータは、使用しているソフトウェアに一貫性のない方法でこの情報を入力した別の個人から受け取りました。
「obs」には次の 3 つの情報が含まれます: - ID (ID: 10、ID:96 など) - 日付 (M/D/Y) - 識別子 (S または T)
この情報を分割し、ID 番号 (10 または 96)、日付 (例: 6/8/13)、および識別子 (S または T) を抽出します。
これを行うために、strsplit を使用して次のことを試しました。
temp<-strsplit(as.character(df$obs), " ")
mat<-matrix(unlist(temp), ncol=5, byrow=TRUE)
私はこれが私の実際のデータのように機能すると思っていました.130,000を超える観測があり、一部の観測には「ID:」と番号の間に空白「」がないという問題があることに気づきませんでした。たとえば、上記のデータでは、「ID:96」はコロンと数字の間に空白がありません。明らかに、次の警告メッセージが表示されました。
Warning message:
In matrix(unlist(temp), ncol = 5, byrow = TRUE) :
data length [796454] is not a sub-multiple or multiple of the number of rows [159291]
明らかに、strsplit の出力は次の 2 つの形式を取るため、strsplit を適切な通常の列に強制することはできません。
[1] "ID:" "10" "DAY:" "6/10/13" "S" #when there is whitespace
[1] "ID:96" "DAY:" "6/8/13" "T" #when there isn't whitespace
これを回避するために、「ID:」の後にスペースを入れることができればうまくいくと考えて、これを行いました。
df$obs <- gsub("ID:", "ID: ", df$obs)
しかし、strsplit を実行したとき、データを分割する 2 つの場所として二重の空白が認識されたため、これは機能しませんでした。
idnumber、date、identifier の個別の列を使用して元の df に強制的に戻すことができる複数の strsplits の解決策を誰かが知っていれば、それは素晴らしいことです。
編集:申し訳ありませんが、再現可能な例のデータを追加するのを忘れました:
df<-structure(list(duration = c(1.80176, 1.8685, 0.233562, 5.53876,
3.4367, 0.533856, 2.30225, 2.77942), obs = structure(c(1L, 1L,
1L, 2L, 2L, 2L, 2L, 2L), .Label = c("ID: 10 DAY: 6/10/13 S",
"ID:96 DAY: 6/8/13 T"), class = "factor"), another = structure(c(3L,
2L, 5L, 5L, 1L, 4L, 3L, 2L), .Label = c("blue", "green", "orange",
"pink", "yellow"), class = "factor")), .Names = c("duration",
"obs", "another"), class = "data.frame", row.names = c(NA, -8L
))