java - 正規表現を使用して解析し、内容を取得するのに役立ちます
htmlのタグ

Question

データを取得しようとしているサイトがあり、コンテンツは次のようにレイアウトされています。

 <p uri="/someRandomURL.p1" class="">TestData TestData TestData</p> 
 <p uri="/someRandomURL.p2" class="">TestData1 TestData1 TestData1</p>

私はJavaを使用してWebページのコンテンツを取得しており、次のように解析しようとしています:

        Pattern p = Pattern.compile(".*?p1' class=''>(.*?)<.*");
        Matcher m = p.matcher(data);

        //Print out regex groups to console
        System.out.println(m.group(1)) ;

しかし、一致するものが見つからないという例外がスローされます...

私の正規表現は正しいですか？他に何が起こっている可能性がありますか？私はhtmlをうまく取得していますが、どうやら私の正規表現に一致するものはありません...

ありがとう

score 0 · Accepted Answer

テキスト要素に複数のテキスト行が含まれている場合、ドット ( ) が一致しないため (既定では)、一致するものは見つかりませ.ん\n。

これを試してください：

 Pattern p = Pattern.compile(".*?p1' class=''>(.*?)<.*", Pattern.DOTALL);

java - 正規表現を使用して解析し、内容を取得するのに役立ちますhtmlのタグ

1 に答える 1

Related

Reference

java - 正規表現を使用して解析し、内容を取得するのに役立ちます
htmlのタグ