7

私はこの問題でレンガの壁にぶつかっています。

いくつかのドキュメント ID と日付が文字ベクトルに格納されたデータ フレーム (日付) があります。

  Doc     Dates
1 12345 c("06/01/2000","08/09/2002")
2 23456 c("07/01/2000", 09/08/2003", "07/01/2000")
3 34567 c("09/06/2004", "09/06/2004", "12/30/2006")
4 45678 c("06/01/2000","08/09/2002")

この結果を得るために、日付の重複要素を削除しようとしています:

  Doc     Dates
1 12345 c("06/01/2000","08/09/2002")
2 23456 c("07/01/2000", 09/08/2003")
3 34567 c("09/06/2004", "12/30/2006")
4 45678 c("06/01/2000","08/09/2002")

私が試してみました:

R>unique(dates$dates)

ただし、日付によって重複する行を削除します。

  Doc     Dates
1 12345 c("06/01/2000","08/09/2002")
2 23456 c("07/01/2000", 09/08/2003")
3 34567 c("09/06/2004", "12/30/2006")

日付の重複する要素のみを削除し、日付による重複する行を削除しない方法についてのヘルプはありますか?

* *データで更新

# Match some text string (dates) from some text:

df1$dates <- as.character(strapply(df1[[2]], "((\\D\\d{1,2}(/|-)\\d{1,2}(/|-)\\d{2,4})|    ([^/]\\d{1,2}(/|-)\\d{2,4})|((JAN|FEB|MAR|APR|MAY|JUN|JUL|AUG|SEP|OCT|NOV){1}[\\s|-]{0,2}\\d{1,4}(\\D[\\s|-]{0,}\\d{2,4}){0,}))"))

# Drop first 2 columns from dataframe
df2<-df1[ -c(1,2)]

# List data
>df2
872                     7/23/2007
873 c(" 11/4/2007", " 11/4/2007")
874   c(" 4/2/2008", " 8/2/2007")
880                    11/14/2006

> class(df2)
[1] "data.frame"

> class(df2$dates)
[1] "character"

> dput(df2)
structure(list(dates = c("NULL", "NULL", " 7/23/2007", "c(\" 11/4/2007\", \" 11/4/2007\")", 
"c(\" 4/2/2008\", \" 8/2/2007\")", "NULL", "NULL", "NULL", "NULL", 
"NULL", " 11/14/2006")), .Names = "dates", class = "data.frame", row.names = 870:880)

だから私の問題は、行873の重複した日付を取り除く方法ですか?

4

4 に答える 4

1

文字ベクトルから重複した値を削除するという問題を解決しました-lapply(strapply()、unique)をラップします:

df1$date <- as.character(lapply((strapply(df1[[2]], "((\\D\\d{1,2}(/|-)\\d{1,2}(/|-    )\\d{2,4})|(\\s\\d{1,2}(/|-)\\d{2,4})|((JAN|FEB|MAR|APR|MAY|JUN|JUL|AUG|SEP|OCT|NOV){1}[\\s|-]{0,2}\\d{1,4}(\\D[\\s|-]{0,}\\d{2,4}){0,}))")),unique))

ご助力いただきありがとうございます。

于 2013-07-10T14:59:42.710 に答える
0

このようなものを探しているかもしれません。

 df

     Doc                                       Dates
 1 12345                c("06/01/2000","08/09/2002")
 2 23456 c("07/01/2000", "09/08/2003", "07/01/2000")
 3 34567 c("09/06/2004", "09/06/2004", "12/30/2006")
 4 45678                c("06/01/2000","08/09/2002")

 Eval and Parse
 x <- t(sapply(df[,"Dates"],function(x){unique(eval(parse(text = x)))}))
 df$Dates <- paste(x[,1],x[,2],sep=",")

 df
      Doc                 Dates
  1 12345 06/01/2000,08/09/2002
  2 23456 07/01/2000,09/08/2003
  3 34567 09/06/2004,12/30/2006
  4 45678 06/01/2000,08/09/2002


 Same can be achieved using Regex:

 paste(unique(unlist(strsplit(gsub("c\\(|\\)","",'c("24/07/2012","22/01/2012","24/07/2012")'),","))),sep = "")

 [1] "\"24/07/2012\"" "\"22/01/2012\""

 Haven't tried on data but works
于 2016-08-05T09:22:25.190 に答える