環境:
美しいスープ 4
パイソン 2.7.5
論理:
のクラス<li>
内にある「find_all」インスタンス:<ul>
my_class
<ul class='my_class'>
<li>thing one</li>
<li>thing two</li>
</ul>
明確化:<li>
タグ間の「テキスト」を取得するだけです。
Python コード:
(以下のfind_allは正しくありません。コンテキストに入れているだけです)
from bs4 import BeautifulSoup, Comment
import re
# open original file
fo = open('file.php', 'r')
# convert to string
fo_string = fo.read()
# close original file
fo.close()
# create beautiful soup object from fo_string
bs_fo_string = BeautifulSoup(fo_string, "lxml")
# get rid of html comments
my_comments = bs_fo_string.findAll(text=lambda text:isinstance(text, Comment))
[my_comment.extract() for my_comment in my_comments]
my_li_list = bs_fo_string.find_all('ul', 'my_class')
print my_li_list