重複の可能性: HTML タグに一致する RegEx とテキストの抽出
htmlタグなどの間のテキストを取得する必要があります<p></p>
。私のパターンはこれです
Pattern pText = Pattern.compile(">([^>|^<]*?)<");
これはあまり役に立たないので、誰もがより良いパターンを知っています。Webページのコンテンツをインデックス化するために必要です。
ありがとう
重複の可能性: HTML タグに一致する RegEx とテキストの抽出
htmlタグなどの間のテキストを取得する必要があります<p></p>
。私のパターンはこれです
Pattern pText = Pattern.compile(">([^>|^<]*?)<");
これはあまり役に立たないので、誰もがより良いパターンを知っています。Webページのコンテンツをインデックス化するために必要です。
ありがとう
SOはあなたに降りようとしています。しかし、最初に言っておきますが、正規表現を使用して HTML を解析しないでください。 以下は、Java HTML パーサーのリストです。自分の好みに合った API が見つかるまで周りを調べて、代わりにそれを使用してください。
|
演算子を負のセット内で使用しようとしているようですが、これは機能しておらず、必要もありません。一致させたくない文字を指定するだけです:
Pattern pText = Pattern.compile(">([^<>]*?)<");
HTML を解析するときに正規表現を使用しないでください。
代わりにXPathを使用してください (HTML が整形式の場合)。この関数を使用して、テキスト ノードをtext()
非常に簡単に参照できます。