2

I have:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from urllib2 import urlopen

page2 = urlopen('http://pogoda.yandex.ru/moscow/').read().decode('utf-8')

page = urlopen('http://yasko.by/').read().decode('utf-8')

And in line "page ..." I have error "UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 32: invalid continuation byte", but in line "page2 ..." th error is not, why?

From a position of 32 in yasko.by starts Cyrillic symbols, how I get it correctly?

Thanks!

4

1 に答える 1

2

http://yasko.by/のコンテンツは でエンコードされ、 http://pogoda.yandex.ru/moscow/windows-1251のコンテンツは でエンコードされます。utf-8

page = ..行は次のようになります。

page = urlopen('http://yasko.by/').read().decode('windows-1251')
于 2013-11-11T16:00:01.450 に答える