URLを開いて読み取るための次のコードがあります。
html_data = urllib2.urlopen(req).read()
これがHTTPからデータを読み取るための最も標準的な方法だと思います。ただし、応答にチャンク転送エンコーディングがある場合、応答は次の文字で始まります。
1eb0\r\n2625\r\n
<?xml version="1.0" encoding="UTF-8"?>
...
これは、上記のチャンクエンコーディングが原因で発生するため、XMLデータが破損します。
では、チャンクエンコーディングに関連するすべてのメタデータをどのように取り除くことができるのでしょうか?