2

ウェブサイトのコンテンツを破棄しようとしています。ただし、出力に不要なスペースが含まれているため、この出力を解釈できません。シンプルなコードを使用しています:

 import urllib2
 from bs4 import BeautifulSoup
 html= 'http://idlebrain.com/movie/archive/index.html'
 soup = BeautifulSoup(urllib2.urlopen(html).read())
 print(soup.prettify(formatter=None))

OUTPUT::(出力は非常に大きいため、直面している問題を理解するために出力のごく一部です)

       <html><head><title>Telugu cinema reviews by Jeevi - idlebrain.com</title> 
        <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
        </head><bodybgcolor="#FFFFFF" leftmargin="0" marginheight="0" marginwidth="0" topmargin="0"><table border="0" cellpadding="0" cellspacing="0" width="96%">
    <tr>
    <td align="left"> <img alt="Idlebrain.Com" height="63" src="../../image/vox_r01_c2.gif"width="264"/></td>
   <td><div align="right"><script type="text/javascript"><!--
      g   o   o   g   l   e   _   a   d   _   c   l   i   e   n   t       =       "   c   a   -   p   u   b   -   8   8   6   3   7   1   8   7   5   2   0   4   9   7   3   9   "   ;   

       /   *       r   e   v   i   e   w   s   -   h   o   r       *   /   

       g   o   o   g   l   e   _   a   d   _   s   l   o   t       =       "   1   6   4   8   6   2   0   2   7   3   "   ;   

      g   o   o   g   l   e   _   a   d   _   w   i   d   t   h       =       7   2   8   ;   

      g   o   o   g   l   e   _   a   d   _   h   e   i   g   h   t       =       9   0   ;   

      /   /   -   -   >   

     <   /   s   c   r   i   p   t   >   

     <   s   c   r   i   p   t       t   y   p   e   =   "   t   e   x   t   /   j   a   v   a   s   c   r   i   p   t   "   

     s   r   c   =   "   h   t   t   p   :   /   /   p   a   g   e   a   d   2   .   g   o   o   g   l   e   s   y   n   d   i   c   a   t   i   o   n   .   c   o   m   /   p   a   g   e   a   d   /   s   h   o   w   _   a   d   s   .   j   s   "   >   

     <   /   s   c   r   i   p   t   >   

                           <   /   d   i   v   >   

                   <   /   t   d   >   

           <   /   t   r   >   

    <   /   t   a   b   l   e   >   

    <   t   a   b   l   e       w   i   d   t   h   =   "   9   6   %   "       b   o   r   d   e   r   =   "   0   "       c   e   l   l   s   p   a   c   i   n   g   =   "   0   "       c   e   l   l   p   a   d   d   i   n   g   =   "   0   "   >   

             <   t   r   >       

                     <   t   d       w   i   d   t   h   =   "   1   2   8   "       v   a   l   i   g   n   =   "   t   o   p   "       a   l   i   g   n   =   "   l   e   f   t   "   >       

                           <   t   a   b   l   e       b   o   r   d   e   r   =   "   0   "       c   e   l   l   p   a   d   d   i   n   g   =   "   0   "       c   e   l   l   s   p   a   c   i   n   g   =   "   0   "       w   i   d   t   h   =   "   1   1   9   "   >   

     <   /   t   r   >   

    <   /   t   a   b   l   e   >   

     <   /   b   o   d   y   >   

     <   /   h   t   m   l   >   

           </script></div></td></tr></table></body></html> 

ありがとう!!!!

4

3 に答える 3

1

html.parserパーサーを次のように指定できます。

soup = BeautifulSoup(urllib2.urlopen(html).read(), 'html.parser')

html5または、パーサーを指定できます。

soup = BeautifulSoup(urllib2.urlopen(html).read(), 'html5')

html5パーサーをまだインストールしていませんか? コマンドラインからインストールします:

sudo apt-get install python-html5lib

また、xmlパーサーを使用することもできますが、次のような多値属性class="foo bar"にいくつかの違いが見られる場合があります。

soup = BeautifulSoup(urllib2.urlopen(html).read(), 'xml')
于 2014-02-16T16:13:14.417 に答える
0

私はそれを解決しましたが、正確な理由はわかりません。virtualenv をインストールし、その中でプログラムを実行しました。そしてそれは完璧に機能しました。

于 2012-12-27T06:31:43.743 に答える
0

これはおそらくBeautifulSoup がドキュメントを正しく読み取らないの複製です。つまり、BS 4.0.2のバグが原因でした。

そのバグは 4.0.3 で修正されました。の出力を確認したい場合があります

>>> import bs4
>>> bs4.__version__

お使いのシステムの BeautifulSoup では 4.0.2 であると思われますが、virtualenv では 4.0.3 (またはそれ以降) です。そのため、システムでコードを適切に実行したい場合は、BeautifulSoup を新しいバージョンにアップグレードしてください。

于 2013-08-27T11:31:52.270 に答える