正規表現のパターンマッチングで奇妙な動作をしました
正規表現は次のとおりです。
String regexp = "<h3.*>(.*)</h3>";
私は最初のケースを持っています:
<h3 class="pubAdTitleBlock">Title</h3>
この場合、すべて問題ありません。matcher.group(1)が「タイトル」を教えてくれます
2番目のケースでは、次のようにh3にネストされたリンクがあります。
<h3 class="pubAdTitleBlock "><a href="myLink" title="title">Title</a></h3>
これが問題です
この場合、-matcher.find()はtrue、-matcher.group(0)は完全な文字列、-しかしmatcher.group(1)は空の文字列です
なぜ ?
<h3 ..>title</h3>
中と中のタイトルを抽出する必要があります<h3 ...><a ...>title</a></h3>