java - 正規表現Javaを使用してhtmlソースからテキストを抽出する

翻译自：https://stackoverflow.com/questions/17014185 2013-06-09T21:06:31.857

600 次

正規表現を使用して HTML ページからテキストを抽出するのが好きです。これが私のコードです：

String regExp="<h3 class=\"field-content\"><a[^>]*>(\\w+)</a></h3>";
    Pattern regExpMatcher=Pattern.compile(regExp,Pattern.UNICODE_CHARACTER_CLASS);

    String example="<h3 class=\"field-content\"><a href=\"/humana-akcija-na-kavadarechkite-navivachi-lozari\">Проба 1</a></h3><h3 class=\"field-content\"><a href=\"/opshtina-berovo-ne-mozhe-da-sostavi-sovet-0\">Проба 2</a></h3>";
    Matcher m=regExpMatcher.matcher(example);
    while(m.find())
    {

        System.out.println(m.group(1));
    }

Проба 1値とを取得するのが好きПроба 2です。ただし、最初の値しか取得できませんПроба 1。私の問題は何ですか？

java - 正規表現Javaを使用してhtmlソースからテキストを抽出する

2 に答える 2

Related

Reference