regex - R 正規表現: より広い文字列一致からの出力選択を指定する

Question

正規表現愛好家向けの 1 つ。次の形式の文字列のベクトルがあります。

<TEXTFORMAT LEADING="2"><P ALIGN="LEFT"><FONT FACE="Verdana" STYLE="font-size: 10px" size="10" COLOR="#FF0000" LETTERSPACING="0" KERNING="0">Desired output string containing any symbols</FONT></P></TEXTFORMAT>

この種のものを正規表現で解析する危険性を認識しています。ただし、より大きな文字列一致の出力部分文字列 (つまり>...<、font タグの山形引用符の内容) を効率的に抽出する方法を知っておくと役立ちます。私ができる最善のことは次のとおりです。

require(stringr)
strng = str_extract(strng, "<FONT.*FONT>") # select font statement
strng = str_extract(strng, ">.*<")         # select inside tags
strng = str_extract(strng, "[^/</>]+")     # remove angle quote symbols

Rでこれを達成するための最も簡単な式は何でしょうか?

score 3 · Accepted Answer

を使用str_matchしないでくださいstr_extract(または多分str_match_all)。巻きたい部分を巻きます~~エキス~~括弧内に一致します。

str_match(strng, "<FONT[^<>]*>([^<>]*)</FONT>")

または、ドキュメントを解析し、その方法でコンテンツを抽出します。

library(XML)
doc <- htmlParse(strng)
fonts <- xpathSApply(doc, "//font")
sapply(fonts, function(x) as(xmlChildren(x)$text, "character"))

agstudy が述べたように、xpathSApply物事を簡単にする関数引数を取ります。

xpathSApply(doc, "//font", xmlValue)

score 2 · Accepted Answer

で行うこともできますgsubが、入力ベクトルへの順列が多すぎて、これが壊れる可能性があると思います...

gsub( "^.*(?<=>)(.*)(?=</FONT>).*$" , "\\1" , x , perl = TRUE )
#[1] "Desired output string containing any symbols"

説明

^.*- 文字列の先頭から任意の文字に一致
(?<=>)- これが前にある場合にのみ後続の一致が機能するゼロ幅アサーションの肯定的な後読み。>
(.*)- 次に、任意の文字に一致します (これは現在、番号付きのキャプチャグループです)...
(?=</FONT>)- ...一致するまで"</FONT>"
.*$- 次に、任意の文字を文字列の末尾に一致させます

置換では、一致したすべてのものを番号付きのキャプチャグループに置き換え\\1ます。></FONT>

危険を冒して使用してください。

regex - R 正規表現: より広い文字列一致からの出力選択を指定する

2 に答える 2

説明

Related

Reference