同様の質問を見つけて、自分で解決策を策定しようとしました。しかし、私はあまり満足していないので、ここで質問することにしました。
目的: andを使用して、文字列の最初と最後に現れるいくつかの式 ( "c(\" , and \"a\" )
を削除したいと思います。regular expressions
gsub
#test strings 1 and 2
string1<- "c(\"can't remember the last time\" \"\\a\")"
string2<- "c(\"can't remember the last time\" \"a\")"
#Attempted solution for string1
string1<- gsub("^.\\(","",string1)
string1<- gsub("\\\\.","",string1)
#Result
string1
> "\"can't remember the last time\" \"\")"
質問 1:末尾のバックスラッシュの問題に遭遇することなく、残りのバックスラッシュを削除するにはどうすればよいですか? [[:punct:]]
他の句読点も削除されるため、使用できません。
#Attempted solution for string2
string2<- gsub("^.\\(","",string2)
string2<- gsub(".\\{1}","",string2)
#Result
string2
> "\"can't remember the last time\" \"a\")"
質問 2: 'a\' 式と残りのバックスラッシュを削除するにはどうすればよいですか?
PS。文字列は、Java を使用して Word 文書の表からテキスト ファイルにデータをエクスポートし、そのテキスト ファイルを にインポートした結果として取得されましたR
。regular expressions
しかし、データをエクスポートした Java プログラムの問題を見つけるのではなく、 を使用してこの混乱を解消する方法を知りたいだけです。
ありがとう。
編集: 質問を明確にしていないことをお詫びします。これは、最後の文を次のようにしたい方法です。
"can't remember the last time"
2回目の編集
奇妙な文字列の話: 上記の文字列は、tm
パッケージを使用して構築したコーパスからDirSource
コマンドを使用して選択したものです。元のテキストは表形式で MS Word に保存されました。Java を使用してエクスポートし、文字列ごとにテキスト ファイルを作成し、それらを R にインポートしました。
structure(c("Can't remember the last time",
"\a"), Author = character(0), DateTimeStamp = structure(list(
sec = 40.6046140193939, min = 56L, hour = 13L, mday = 29L,
mon = 5L, year = 113L, wday = 6L, yday = 179L, isdst = 0L), .Names = c("sec",
"min", "hour", "mday", "mon", "year", "wday", "yday", "isdst"
), class = c("POSIXlt", "POSIXt"), tzone = "GMT"), Description = character(0), Heading = character(0), ID = "comment1.txt", Language = "english", LocalMetaData = list(), Origin = character(0), class = c("PlainTextDocument",
"TextDocument", "character"))
"\a"), Author = character(0), DateTimeStamp = structure(list(
sec = 40.7186260223389, min = 56L, hour = 13L, mday = 29L,
mon = 5L, year = 113L, wday = 6L, yday = 179L, isdst = 0L), .Names = c("sec",
"min", "hour", "mday", "mon", "year", "wday", "yday", "isdst"
), class = c("POSIXlt", "POSIXt"), tzone = "GMT"), Description = character(0), Heading = character(0), ID = "comment99.txt", Language = "english", LocalMetaData = list(), Origin = character(0), class = c("PlainTextDocument",
"TextDocument", "character"))
上記のコードで「c(」と「\a」を確認できます。