python - Beautiful Soup と ID による div とその内容の抽出

Question

soup.find("tagName", { "id" : "articlebody" })

<div id="articlebody"> ... </div>これがタグとその間のものを返さないのはなぜですか? 何も返しません。そして、私はそれをじっと見つめているので、それが存在することを事実として知っています

soup.prettify()

soup.find("div", { "id" : "articlebody" })も機能しません。

(編集: BeautifulSoup がページを正しく解析していないことがわかりました。これはおそらく、解析しようとしていたページが SGML などで適切にフォーマットされていないことを意味します)

score 267 · Accepted Answer

コードは正常に動作するため、サンプルドキュメントを投稿する必要があります。

>>> import BeautifulSoup
>>> soup = BeautifulSoup.BeautifulSoup('<html><body><div id="articlebody"> ... </div></body></html')
>>> soup.find("div", {"id": "articlebody"})
<div id="articlebody"> ... </div>

s<div>内で<div>s を検索することも同様に機能します。

>>> soup = BeautifulSoup.BeautifulSoup('<html><body><div><div id="articlebody"> ... </div></div></body></html')
>>> soup.find("div", {"id": "articlebody"})
<div id="articlebody"> ... </div>

score 16 · Accepted Answer

「div」タグが入れ子になりすぎると問題があると思います。Facebook html ファイルからいくつかの連絡先を解析しようとしていますが、Beautifulsoup はクラス "fcontent" のタグ "div" を見つけることができません。

これは他のクラスでも同様です。一般的にdivを検索すると、あまりネストされていないものだけが表示されます。

HTML ソースコードは、あなたの友人 (あなたの友人の 1 人ではない) の友人リストの facebook の任意のページにすることができます。誰かがそれをテストしてアドバイスを与えることができれば、私は本当に感謝しています.

これは私のコードで、クラス「fcontent」でタグ「div」の数を出力しようとしています。

from BeautifulSoup import BeautifulSoup 
f = open('/Users/myUserName/Desktop/contacts.html')
soup = BeautifulSoup(f) 
list = soup.findAll('div', attrs={'class':'fcontent'})
print len(list)

score 9 · Accepted Answer

ほとんどの場合、デフォルトの beautifulsoup パーサーに問題があるためです。「lxml」などの別のパーサーを変更して、もう一度やり直してください。

score 8 · Accepted Answer

beautifulsoup ソースでは、この行により div を div 内にネストできます。したがって、ルーカスのコメントでのあなたの懸念は有効ではありません。

NESTABLE_BLOCK_TAGS = ['blockquote', 'div', 'fieldset', 'ins', 'del']

あなたがする必要があると思うのは、次のような必要な属性を指定することです

source.find('div', attrs={'id':'articlebody'})

score 5 · Accepted Answer

試しましたsoup.findAll("div", {"id": "articlebody"})か？

ばかげているように聞こえますが、野生のものをかき集めている場合、複数の div を除外することはできません...

score 5 · Accepted Answer

私が使用した：

soup.findAll('tag', attrs={'attrname':"attrvalue"})

find/findall; の私の構文として。とはいえ、タグと属性リストの間に他のオプションのパラメーターがない限り、これは変わらないはずです。

score 4 · Accepted Answer

Googleをスクレイピングしようとしているときにも起こりました。
私は最終的にpyqueryを使用しました。
インストール：

pip install pyquery

使用する：

from pyquery import PyQuery    
pq = PyQuery('<html><body><div id="articlebody"> ... </div></body></html')
tag = pq('div#articlebody')

score 4 · Accepted Answer

ここにコードフラグメントがあります

soup = BeautifulSoup(:"index.html")
titleList = soup.findAll('title')
divList = soup.findAll('div', attrs={ "class" : "article story"})

ご覧のとおり、すべてのタグを見つけてから、その中に class="article" を含むすべてのタグを見つけます

python - Beautiful Soup と ID による div とその内容の抽出

13 に答える 13

Related

Reference