0

私は次のようにURLからデータを取得しています:

data = urllib2.urlopen(url).read()

しかし、タグがないことに気づきました。これは、「<」と「>」が「;」に置き換えられたためです。キャラクター。他のすべては無傷です。それで:

<foo>bar</foo>に変更されます;foo;bar;/foo;

どうすればこれを修正できますか?なぜそれが起こっているのですか?

[編集]:私はそれを修正する方法を見つけました。どうやら、それは'<'を'&lt'に、'>'を'&gt'に置き換えていたようです。標識の短い形だと思います。なぜこれが起こっているのかまだわかりません。Webサービス/APIにバグがあると思います。

4

1 に答える 1

0

私はちょうどこれを実行しました:

    import urllib2

    url='http://www.google.com'
    data = urllib2.urlopen(url).read()
    print data

そして、最後の行を含め、たくさんの < と > を取得します</script></body></html>

アクセスしようとしている URL や の値などの詳細をいくつか投稿できますdataか?

于 2012-12-13T17:00:08.160 に答える