0

HTML ページから次の文字列コンテンツを削除する必要があります

<a rel="nofollow" href="http://feeds.wordpress.com/1.0/gocomments/terminaldeembarque.wordpress.com/1847/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/comments/terminaldeembarque.wordpress.com/2044/"></a>

数値「2044」と「1847」のみが変数であることに注意してください。正規表現でそれを行うことはできますか? 誰でもそれで私を助けることができますか?

ありがとう。

4

2 に答える 2

1

すべてのアンカー タグを削除するか、特定のタグのみを削除するかによって異なります。この文字列全体を正規表現に入れ (すべてをエスケープすることを忘れないでください)、数字 "2044" と "1847" の代わりに \d{0,} または \d+ を次のように使用できます。

...wordpress.com/\d+/

また

...wordpress.com/\d{0,}/

{0,} のゼロを、照合に必要な最小桁数に変更してください。ただし、この正規表現は非常に具体的であり、1 つの文字が指定したものと異なると壊れることに注意してください。たとえば、rel 属性が省略されている場合や、html 構造が変更されている場合などです。

最終的な正規表現:

<a rel="nofollow" href="http://feeds\.wordpress\.com/1\.0/gocomments/terminaldeembarque\.wordpress\.com/\d{0,}/"><img alt="" border="0" src="http://feeds\.wordpress\.com/1\.0/comments/terminaldeembarque\.wordpress\.com/\d{0,}/"></a>
于 2013-04-30T01:48:05.353 に答える
1

次の正規表現を使用します。

"a rel=\"nofollow\" href=\"http://feeds.wordpress.com/1.0/gocomments/terminaldeembarque.wordpress.com/[0-9]*/\"><img alt=\"\" border=\"0\" src=\"http://feeds.wordpress.com/1.0/comments/terminaldeembarque.wordpress.com/[0-9]*/\"></a>"
于 2013-04-30T01:40:52.430 に答える