python - BeautifulSoup - 本文の内容を取得するにはどうすればよいですか

Question

HTMLBeautifulSoupで解析しています。body最後にコンテンツを取得したいのですが、bodyタグがありません。しかし、BeautifulSoup は、、、およびタグを追加htmlしheadますbody。この googlegrops ディスカッションでは、考えられる解決策の 1 つが提案されています。

>>> from bs4 import BeautifulSoup as Soup
>>> soup = Soup('<p>Some paragraph</p>')
>>> soup.body.hidden = True
>>> soup.body.prettify()
u' <p>\n  Some paragraph\n </p>'

この解決策はハックです。それを行うためのより良い明確な方法があるはずです。

score 36 · Accepted Answer

bodyタグの間にすべてを入れるということですか？

この場合、次を使用できます。

import urllib2
from bs4 import BeautifulSoup
page = urllib2.urlopen('some_site').read()
soup = BeautifulSoup(page)
body = soup.find('body')
the_contents_of_body_without_body_tags = body.findChildren(recursive=False)

score 4 · Accepted Answer

本文の内容だけを取得する最も簡単な方法はunwrap()、 body タグ内から内容を取得することです。

>>> html = "<p>Hello World</p>"
>>> soup = BeautifulSoup(html, "html5lib")
>>> print(soup)
<html><head></head><body><p>Hello World</p></body></html>
>>>
>>> soup.html.unwrap()
<html></html>
>>>
>>> print(soup)
<head></head><body><p>Hello World</p></body>
>>>
>>> soup.head.unwrap()
<head></head>
>>>
>>> print(soup)
<body><p>Hello World</p></body>
>>>
>>> soup.body.unwrap()
<body></body>
>>>
>>> print(soup)
<p>Hello World</p>

より効率的で再利用可能にするために、これらの望ましくない要素をリストに入れてループすることができます...

>>> def get_body_contents(html):
...  soup = BeautifulSoup(html, "html5lib")
...  for attr in ['head','html','body']:
...    if hasattr(soup, attr):
...      getattr(soup, attr).unwrap()
...  return soup
>>>
>>> html = "<p>Hello World</p>"
>>> print(get_body_contents(html))
<p>Hello World</p>

python - BeautifulSoup - 本文の内容を取得するにはどうすればよいですか

2 に答える 2

Related

Reference