私はbeautifulSoup4でWebページスクレーパーに取り組んでいます。記事のテキストと画像を取得したいのですが、問題があります。html コードは次のようになります。
<div>
some texts1
<br />
<img src="imgpic.jpg" />
<br />
some texts2
</div>
私はこれでテキスト全体を取得します:
post_soup.get_text()
そしていつものようにすべての画像div
をurllib2
保存して最後にhtmlページに保存し、すべてのテキストを一番上に置き、最後に画像を配置しますが、スクレイピングしたページと同じように新しいhtmlページに保存したいsome texts1
ですimage
。some texts2
何か提案はありますか?