0

BeautifulSoup 4.1.0 と lxml パーサーを使用して一部の Web ページをスクレイピングすると、奇妙な動作に気付きました。組み込みの html.parser は、スクレイピングしようとしていた Web ページでは機能しなかったため、lxml パーサーを使用することにしました。

私の Eclipse コンソールでの印刷の結果は、ほんの一瞬だけきれいに見えますが、その後、すべての文字の間にスペースが入った、不完全で役に立たず、見栄えの悪い出力に自動的に切り替わります。

                           ! - -   S w i t c h   - - >                

                     / d i v > 

ページの doc-type は次のとおりです。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

同様の問題に遭遇した人がいるかどうか、またそれを修正する方法があるかどうか疑問に思っていました。前もって感謝します。

4

2 に答える 2