1

HTML ドキュメントからデータを抽出し、興味深い情報だけを含む XML ドキュメントを作成する必要があります。私がこれを行う方法は、HTML ドキュメントを XML ドキュメントに段階的に変換することです。それぞれ 1 行に 5 つの最も外側の XML タグがあり、今はそれらの内部を構造化しようとしています。

このように構成された行があります:

   <myTag> 
      blablabla <a href="link/I/want" *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*> text I don't want </a> blablabla 
   </myTag>

私が欲しいのは:

    <myTag>
    <link>link/I/want</link>
    <title> title I want </title>
    </myTag>

私が持っている正規表現は次のとおりです。

    /a href="(.*)"(.*)>(.*)<\/a>/ 

#$1 = URL、$2 = 何でも、$3 = タイトルを取得したいと考えています。

代わりにこれを取っているため、これは機能していません:

    <myTag>
    <link>link/I/want *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*</link>
    <titl>text I don't want</title>
    </myTag>

行の FIRST アンカー タグのコンテンツを抽出するにはどうすればよいですか?

ありがとう !

4

1 に答える 1

3

貪欲でない表現を使用してください:

/a href="(.*?)"(.*?)>(.*?)<\/a>/

?それぞれの後に注意してください*

于 2012-10-03T21:17:58.813 に答える