python - Python 3 urllib エンコーディング

Question

Web サイトから情報を取得する Python 3 のコードがあります。

webpage = urllib.request.urlopen('http://www.bdm.insee.fr/bdm2/index.action')
webpage = webpage.read()
webpage = webpage.decode("ISO-8859-1")
parser = etree.HTMLParser()
tree = etree.fromstring(webpage,parser)
for liste in tree.iterfind(".//ul"):
   print(etree.tostring(liste, pretty_print=True).decode("utf-8"))

一部の文字が正しくエンコードされ、他の文字が正しくエンコードされない理由がわかりません。出力の一部を次に示します。

<ul class="liens"><li><a href="http://www.insee.fr/fr/publications-et-services/default.asp?page=rediffusion/rediffusion-abon-bdm.htm">Souscription</a></li>
</ul>
<ul id="lienstransversauxbas"><li class="premier" id="navigation-lettre">&#13;
<a href="http://www.insee.fr/fr/publications-et-services/default.asp?page=abonnements/liste-abonnements.htm" title="Lire la lettre d'information">Lettre d'information</a>&#13;
</li>&#13;
<li id="navigation-plan">&#13;
<a accesskey="3" href="http://www.insee.fr/fr/publications-et-services/services/plan-du-site.asp" title="Plan du site">Plan du site</a>&#13;
</li>&#13;
<li id="navigation-boutique">&#13;
<a href="http://www.webcommerce.insee.fr/index.php" title="Acc&#233;der &#224; la boutique en ligne">Acheter les publications</a>&#13;
</li>&#13;
<li id="navigation-credits">&#13;
<a accesskey="8" href="http://www.insee.fr/fr/publications-et-services/default.asp?page=copyright.htm" title="Copyright Insee">Mentions l&#233;gales et cr&#233;dits</a>&#13;
</li>&#13;
</ul>

それらは何ですか ?

ありがとう、

マイケル

score 1 · Accepted Answer

それらは改行です。etreeスペースを保持するために使用するのと同じように、空白が保持されるようにそれらを明示的に含めているのではないかと思います 。ただし、これは推測です。元のソースには表示されないので、なぜetreeがわざわざそれを保存しようとしているのかわかりません。

python - Python 3 urllib エンコーディング

1 に答える 1

Related

Reference