regex - 指定された最初の部分文字列に一致する Perl 正規表現

Question

HTML ドキュメントからデータを抽出し、興味深い情報だけを含む XML ドキュメントを作成する必要があります。私がこれを行う方法は、HTML ドキュメントを XML ドキュメントに段階的に変換することです。それぞれ 1 行に 5 つの最も外側の XML タグがあり、今はそれらの内部を構造化しようとしています。

このように構成された行があります:

   <myTag> 
      blablabla <a href="link/I/want" *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*> text I don't want </a> blablabla 
   </myTag>

私が欲しいのは：

    <myTag>
    <link>link/I/want</link>
    <title> title I want </title>
    </myTag>

私が持っている正規表現は次のとおりです。

    /a href="(.*)"(.*)>(.*)<\/a>/

#$1 = URL、$2 = 何でも、$3 = タイトルを取得したいと考えています。

代わりにこれを取っているため、これは機能していません:

    <myTag>
    <link>link/I/want *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*</link>
    <titl>text I don't want</title>
    </myTag>

行の FIRST アンカータグのコンテンツを抽出するにはどうすればよいですか?

ありがとう！

score 3 · Accepted Answer

貪欲でない表現を使用してください：

/a href="(.*?)"(.*?)>(.*?)<\/a>/

?それぞれの後に注意してください*。

regex - 指定された最初の部分文字列に一致する Perl 正規表現

1 に答える 1

Related

Reference