0

特定の文字列の発生に基づいて、大規模なデータセットをすばやくクリーニングする方法を見つけようとしています。次のような data.frame があります。

created_at  actor_attributes_email      type
3/11/12 7:28    jeremy@asynk.ch         Event
3/11/12 7:28    jeremy@asynk.ch         PushEvent
3/11/12 7:28    jeremy@asynk.ch         PushEvent
3/11/12 7:42    jeremy@asynk.ch         IssueCommentEvent
3/11/12 11:06   d.bussink@gmail.com     PushEvent
3/11/12 11:06   d.bussink@gmail.com     PushEvent

完全な CSVはこちらで確認できます。

「Rで検索して削除する」ためのコマンドを書いています:

# Load CSV file
events.raw <- read.csv(file = "input.csv", header = TRUE)

# Delete events called "Event"
events.raw.new <- events.raw[!grepl("Event", events.raw$type, fixed = TRUE),]

私のコードはすべての行を削除するようになりましたが、fixed = TRUE 引数を使用しているため、よくわかりません。私が望むのは、「イベント」がすべての行の部分文字列であるため、完全な文字列であるすべての行を削除することです。コードを完全な文字列に制限するにはどうすればよいですか?

4

1 に答える 1

0

質問に対する1つの答えは次のとおりです。

events.raw <- subset(events.raw, type!="Event")

ただし、これで問題が解決するわけではありません

events.raw.new <- events.raw[!grepl("Event", events.raw$type, fixed = TRUE),]

同じ目的を達成していません。

于 2012-12-13T00:53:51.253 に答える