16

divBeautiful Soupモジュールを使用して、クラス名がであるタグのデータを取得するにはどうすればよいfeeditemcontent cxfeeditemcontentですか?それは...ですか:

soup.class['feeditemcontent cxfeeditemcontent']

また:

soup.find_all('class')

これはHTMLソースです:

<div class="feeditemcontent cxfeeditemcontent">
    <div class="feeditembodyandfooter">
         <div class="feeditembody">
         <span>The actual data is some where here</span>
         </div>
     </div>
 </div> 

これはPythonコードです:

 from BeautifulSoup import BeautifulSoup
 html_doc = open('home.jsp.html', 'r')

 soup = BeautifulSoup(html_doc)
 class="feeditemcontent cxfeeditemcontent"
4

6 に答える 6

24

Beautiful Soup 4は、「class」属性の値を文字列ではなくリストとして扱います。つまり、jadkik94のソリューションを簡略化できます。

from bs4 import BeautifulSoup                                                   

def match_class(target):                                                        
    def do_match(tag):                                                          
        classes = tag.get('class', [])                                          
        return all(c in classes for c in target)                                
    return do_match                                                             

soup = BeautifulSoup(html)                                                      
print soup.find_all(match_class(["feeditemcontent", "cxfeeditemcontent"]))
于 2012-07-05T14:22:08.517 に答える
11

これを試してみてください。この単純なことには多すぎるかもしれませんが、機能します。

def match_class(target):
    target = target.split()
    def do_match(tag):
        try:
            classes = dict(tag.attrs)["class"]
        except KeyError:
            classes = ""
        classes = classes.split()
        return all(c in classes for c in target)
    return do_match

html = """<div class="feeditemcontent cxfeeditemcontent">
<div class="feeditembodyandfooter">
<div class="feeditembody">
<span>The actual data is some where here</span>
</div>
</div>
</div>"""

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(html)

matches = soup.findAll(match_class("feeditemcontent cxfeeditemcontent"))
for m in matches:
    print m
    print "-"*10

matches = soup.findAll(match_class("feeditembody"))
for m in matches:
    print m
    print "-"*10
于 2012-07-04T15:16:49.963 に答える
9

soup.findAll("div", class_="feeditemcontent cxfeeditemcontent")

したがって、stackoverflow.comからクラスヘッダーのすべてのdivタグを取得<div class="header">する場合、BeautifulSoupの例は次のようになります。

from bs4 import BeautifulSoup as bs
import requests 

url = "http://stackoverflow.com/"
html = requests.get(url).text
soup = bs(html)

tags = soup.findAll("div", class_="header")

それはすでにbs4ドキュメントにあります。

于 2014-07-24T05:29:55.420 に答える
5
from BeautifulSoup import BeautifulSoup 
f = open('a.htm')
soup = BeautifulSoup(f) 
list = soup.findAll('div', attrs={'id':'abc def'})
print list
于 2013-02-16T06:26:47.913 に答える
3
soup.find("div", {"class" : "feeditemcontent cxfeeditemcontent"})
于 2012-07-04T14:55:52.827 に答える
0

このバグレポートを確認してください:https ://bugs.launchpad.net/beautifulsoup/+bug/410304

ご覧のように、美しいスープはclass="a b"2つのクラスaととして実際に理解することはできませんb

ただし、最初のコメントに示されているように、単純な正規表現で十分です。あなたの場合:

soup = BeautifulSoup(html_doc)
for x in soup.findAll("div",{"class":re.compile(r"\bfeeditemcontent\b")}):
    print "result: ",x

注:これは最近のベータ版で修正されています。私は最近のバージョンのドキュメントを調べていません、あなたがそれをすることができるかもしれません。または、古いバージョンを使用して動作させたい場合は、上記を使用できます。

于 2012-07-04T14:56:05.863 に答える