0

python2.7とbeautifulsoup4でウェブサイトをスクレイプしようとしています。私が使用しているコードは、一方のマシンで機能し、もう一方のマシンでは、文字の間に3つの空白が追加された結果の「スープ」を取得します。私は次のようなものを手に入れます(両方ともEclipse / pydevのようにターミナルで。これを引き起こしているのは何か考えはありますか?

               i   f       (   w   i   n   d   o   w   .   D   o   m   L   o   a   d   e   d   )   
           {   
               D   o   m   L   o   a   d   e   d   .   l   o   a   d   (   f   u   n   c   t   i   o   n   (   )   {   b   a   n   n   e   r   S   y   n   c   (   '   t   b   '   )   ;   }   )   ;   

               d   o   c   u   m   e   n   t   .   w   r   i   t   e   (   '   d   i   v       i   d   =   "   d   o   m   L   o   a   d   e   d   "       s   t   y   l   e   =   "   d   i   s   p   l   a   y   :   n   o   n   e   "   >   \   /   d   i   v   >   '   )   ;   
           }   
       /   s   c   r   i   p   t   >   
       !   -   -       S   e   r   v   e   r   :       P   h   o   b   o   s   ,       S   e   r   v   e   r       t   i   m   e   :       0   ,   0   9   2   7       s       (   C   :       0   ,   0   5   2   0   ;       Q   :       7   ;       0   ,   0   0   2   2   ;       E   :       5   2   ;       0   ,   0   3   1   1       s   ,       M   :       3   ;       0   ,   0   0   1   1       s   ,       A   :       0   ;       0   ,   0   0   0   0       s   )   ,       M   e   m   :       1   2   3   0   1       K   B   ,       E   n   g   i   n   e   s   :       (   S   )       p   h   o   b   o   s       (   5   2   )       -   -   >   
   /   b   o   d   y   >   

/ html>

4

1 に答える 1

0

2台のマシンが異なるHTMLパーサーライブラリをインストールしている可能性が非常に高いです。このリンクを確認してください。ご存知のように、パーサーが異なれば、解析結果も異なる可能性があります。不正な形式のHTMLの場合。

于 2013-01-05T00:46:00.310 に答える