このような単純なhtmlファイルがあります。実際、wiki ページから引っ張ってきて、いくつかの html 属性を削除し、この単純な html ページに変換しました。
<html>
<body>
<h1>draw electronics schematics</h1>
<h2>first header</h2>
<p>
<!-- ..some text images -->
</p>
<h3>some header</h3>
<p>
<!-- ..some image -->
</p>
<p>
<!-- ..some text -->
</p>
<h2>second header</h2>
<p>
<!-- ..again some text and images -->
</p>
</body>
</html>
この html ファイルを python とこのような美しいスープを使用して読み取ります。
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("test.html"))
pages = []
私がやりたいことは、この html ページを 2 つの部分に分割することです。最初の部分は、最初のヘッダーと 2 番目のヘッダーの間にあります。2 番目の部分は、2 番目のヘッダー <h2> タグと </body> タグの間になります。次に、それらをリストに保存したいと思います。ページ。したがって、 <h2> タグに従って、html ページから複数のページを作成できます。
これをどのように行うべきかについてのアイデアはありますか? ありがとう..