2

解析http://en.wikipedia.org/wiki/Israel中に、テキストを含むタグに遭遇しましたH2が、Beautiful Soup はそのNoneタイプを返します。

$ python
Python 2.7.3 (default, Apr 10 2013, 05:13:16)
[GCC 4.7.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import bs4
>>> import requests
>>> from pprint import pprint
>>> response = requests.get('http://en.wikipedia.org/wiki/Israel')
>>> soup = bs4.BeautifulSoup(response.content)
>>> for h in soup.find_all('h2'):
...     pprint(str(type(h)))
...     pprint(h)
...     pprint(str(type(h.string)))
...     pprint(h.string)
...     print('--')
...                     
"<class 'bs4.element.Tag'>"
<h2>Contents</h2>    
"<class 'bs4.element.NavigableString'>"
u'Contents'          
--                   
"<class 'bs4.element.Tag'>"
<h2><span class="mw-headline" id="Etymology"><span id="Etymology"></span> Etymology</span></h2>
"<type 'NoneType'>"  
None                 
--                   
"<class 'bs4.element.Tag'>"
<h2><span class="mw-headline" id="History">History</span></h2>
"<class 'bs4.element.NavigableString'>"
u'History'           
--

これは解析の問題ではないことに注意してください。Beautiful Soup はドキュメントを問題なく解析します。H22 番目の要素が型を返すのはなぜNoneですか? 文字列の先頭の「 」(スペース)が原因でしょうか? どうすればこれを回避できますか? これは、Python 2.7、Kubuntu Linux 12.10 の Beautiful Soup 4 です。

4

2 に答える 2