正規表現の一致を含むすべてのHTMLタグを抽出しようとしています。たとえば、文字列「name」を含むすべてのタグを取得したいとし、次のようなHTMLドキュメントがあるとします。
<html>
<head>
<title>This tag includes 'name', so it should be retrieved</title>
</head>
<body>
<h1 class="name">This is also a tag to be retrieved</h1>
<h2>Generic h2 tag</h2>
</body>
</html>
おそらく、正規表現を試して、開始と終了の間のすべての一致をキャッチする必要"<>"
がありますが、それらの一致に基づいて解析されたツリーをトラバースできるようにしたいので、兄弟または親または「nextElements」を取得できます。上記の例では、一致を含むタグの親または兄弟であることがわかったら、それは取得する<head>*</head>
か、おそらく一度は取得することになります。<h2>*</h2>
BeautifulSoapを試してみましたが、探しているタグの種類やその内容に基づいたタグがすでにわかっている場合に便利だと思います。この場合、最初に一致を取得し、その一致を開始点として、BeautifulSoapや他のHTMLパーサーが実行できるようにツリーをナビゲートしたいと思います。
提案?