HTML ドキュメントからデータを抽出し、興味深い情報だけを含む XML ドキュメントを作成する必要があります。私がこれを行う方法は、HTML ドキュメントを XML ドキュメントに段階的に変換することです。それぞれ 1 行に 5 つの最も外側の XML タグがあり、今はそれらの内部を構造化しようとしています。
このように構成された行があります:
<myTag>
blablabla <a href="link/I/want" *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*> text I don't want </a> blablabla
</myTag>
私が欲しいのは:
<myTag>
<link>link/I/want</link>
<title> title I want </title>
</myTag>
私が持っている正規表現は次のとおりです。
/a href="(.*)"(.*)>(.*)<\/a>/
#$1 = URL、$2 = 何でも、$3 = タイトルを取得したいと考えています。
代わりにこれを取っているため、これは機能していません:
<myTag>
<link>link/I/want *some css* > title I want </a> some other stuff <a href="link that/I/don't/want" *some css*</link>
<titl>text I don't want</title>
</myTag>
行の FIRST アンカー タグのコンテンツを抽出するにはどうすればよいですか?
ありがとう !