java - HTMLタグ間のテキストを取得

Question

重複の可能性: HTML タグに一致する RegEx とテキストの抽出

htmlタグなどの間のテキストを取得する必要があります<p></p>。私のパターンはこれです

Pattern pText = Pattern.compile(">([^>|^<]*?)<");

これはあまり役に立たないので、誰もがより良いパターンを知っています。Webページのコンテンツをインデックス化するために必要です。

ありがとう

score 5 · Accepted Answer

SOはあなたに降りようとしています。しかし、最初に言っておきますが、正規表現を使用して HTML を解析しないでください。以下は、Java HTML パーサーのリストです。自分の好みに合った API が見つかるまで周りを調べて、代わりにそれを使用してください。

score 3 · Accepted Answer

|演算子を負のセット内で使用しようとしているようですが、これは機能しておらず、必要もありません。一致させたくない文字を指定するだけです：

Pattern pText = Pattern.compile(">([^<>]*?)<");

score 2 · Accepted Answer

HTML を解析するときに正規表現を使用しないでください。

代わりにXPathを使用してください (HTML が整形式の場合)。この関数を使用して、テキストノードをtext()非常に簡単に参照できます。

3 に答える 3