0

定義された 2 つの文字列の間にある文字列を抽出したいとしましょう。たとえば、この関数を呼び出すとparse_between()、R では次のように機能します。

>main_string<-"the quick brown fox>$ jumps over the lazy </ dog"
>substring<-parse_between(main_string, begin=">$", end="</")
>substring
[1] " jumps over the lazy "

各インスタンスに対応する要素を持つベクトルを生成できればさらに良いでしょう。「stringr」などの文字列操作に使用できるパッケージをいくつか検索しましたが、例に示すように簡単にこれを行う関数は見つかりませんでした。私の動機は、R 用の html パーサーが見つからないにもかかわらず、残念ながら html ファイルを解析することです。

4

1 に答える 1

2

まず、この質問と回答をよく読んでください: RegEx match open tags except XHTML self-contained tags

次に、それでも思いとどまらない場合は、regexまたはを使用しますgsub。どちらも、行頭または行末を指定するメタ文字を持っています。その場合にできることは、置き換えることです

{start_of_line through to ">$"} 

何もない場合は、置き換えます

{"</" through to end_of_line}

何もありません。

于 2013-02-12T12:37:02.267 に答える