正規表現愛好家向けの 1 つ。次の形式の文字列のベクトルがあります。
<TEXTFORMAT LEADING="2"><P ALIGN="LEFT"><FONT FACE="Verdana" STYLE="font-size: 10px" size="10" COLOR="#FF0000" LETTERSPACING="0" KERNING="0">Desired output string containing any symbols</FONT></P></TEXTFORMAT>
この種のものを正規表現で解析する危険性を認識しています。ただし、より大きな文字列一致の出力部分文字列 (つまり>...<
、font タグの山形引用符の内容) を効率的に抽出する方法を知っておくと役立ちます。私ができる最善のことは次のとおりです。
require(stringr)
strng = str_extract(strng, "<FONT.*FONT>") # select font statement
strng = str_extract(strng, ">.*<") # select inside tags
strng = str_extract(strng, "[^/</>]+") # remove angle quote symbols
Rでこれを達成するための最も簡単な式は何でしょうか?