26

特定の Web サイトから RSS フィードを取得する際に、常に問題が発生しています。この関数を実行するためのやや醜い手順を書き上げてしまいましたが、なぜこれが起こるのか、また、より高いレベルのインターフェイスがこの問題を適切に処理するのかどうかに興味があります。フィードを頻繁に取得する必要がないため、この問題は実際にはショー ストッパーではありません。

例外をトラップして部分的なコンテンツを返すソリューションを読みましたが、不完全な読み取りでは実際に取得されるバイト数が異なるため、そのようなソリューションが実際に機能するかどうかはわかりません。

#!/usr/bin/env python
import os
import sys
import feedparser
from mechanize import Browser
import requests
import urllib2
from httplib import IncompleteRead

url = 'http://hattiesburg.legistar.com/Feed.ashx?M=Calendar&ID=543375&GUID=83d4a09c-6b40-4300-a04b-f88884048d49&Mode=2013&Title=City+of+Hattiesburg%2c+MS+-+Calendar+(2013)'

content = feedparser.parse(url)
if 'bozo_exception' in content:
    print content['bozo_exception']
else:
    print "Success!!"
    sys.exit(0)

print "If you see this, please tell me what happened."

# try using mechanize
b = Browser()
r = b.open(url)
try:
    r.read()
except IncompleteRead, e:
    print "IncompleteRead using mechanize", e

# try using urllib2
r = urllib2.urlopen(url)
try:
    r.read()
except IncompleteRead, e:
    print "IncompleteRead using urllib2", e


# try using requests
try:
    r = requests.request('GET', url)
except IncompleteRead, e:
    print "IncompleteRead using requests", e

# this function is old and I categorized it as ...
# "at least it works darnnit!", but I would really like to 
# learn what's happening.  Please help me put this function into
# eternal rest.
def get_rss_feed(url):
    response = urllib2.urlopen(url)
    read_it = True
    content = ''
    while read_it:
        try:
            content += response.read(1)
        except IncompleteRead:
            read_it = False
    return content, response.info()


content, info = get_rss_feed(url)

feed = feedparser.parse(content)

既に述べたように、これはミッション クリティカルな問題ではありませんが、興味深いのは、urllib2 にこの問題があることを期待できるにもかかわらず、このエラーが mechanize と requests でも発生することに驚いていることです。feedparser モジュールはエラーをスローしないため、エラーのチェックは「bozo_exception」キーの存在に依存します。

編集: wget と curl の両方が機能を完璧に実行し、毎回完全なペイロードを正しく取得することに言及したかっただけです。私の醜いハックを除いて、動作する純粋な python メソッドをまだ見つけていません。httplib のバックエンドで何が起こっているのか知りたいと思っています。ヒバリで、先日ツイルでもこれを試してみることにしましたが、同じ httplib エラーが発生しました。

PS 非常に奇妙に感じることが 1 つあります。IncompleteRead は、ペイロードの 2 つのブレークポイントのいずれかで一貫して発生します。feedparser と requests は 926 バイトの読み取り後に失敗するようですが、mechanize と urllib2 は 1854 バイトの読み取り後に失敗します。この行動は一貫しており、説明も理解もできません。

4

3 に答える 3

26

1日の終わりに、他のすべてのモジュール(、、、feedparserおよびmechanizeurllib2が呼び出しますhttplib。これは、例外がスローされる場所です。

さて、まず最初に、これもwgetでダウンロードし、結果のファイルは1854バイトでした。次に、私は試してみましたurllib2

>>> import urllib2
>>> url = 'http://hattiesburg.legistar.com/Feed.ashx?M=Calendar&ID=543375&GUID=83d4a09c-6b40-4300-a04b-f88884048d49&Mode=2013&Title=City+of+Hattiesburg%2c+MS+-+Calendar+(2013)'
>>> f = urllib2.urlopen(url)
>>> f.headers.headers
['Cache-Control: private\r\n',
 'Content-Type: text/xml; charset=utf-8\r\n',
 'Server: Microsoft-IIS/7.5\r\n',
 'X-AspNet-Version: 4.0.30319\r\n',
 'X-Powered-By: ASP.NET\r\n',
 'Date: Mon, 07 Jan 2013 23:21:51 GMT\r\n',
 'Via: 1.1 BC1-ACLD\r\n',
 'Transfer-Encoding: chunked\r\n',
 'Connection: close\r\n']
>>> f.read()
< Full traceback cut >
IncompleteRead: IncompleteRead(1854 bytes read)

つまり、1854バイトすべてを読み取っていますが、今後さらに増えると考えています。1854バイトのみを読み取るように明示的に指示すると、次のように機能します。

>>> f = urllib2.urlopen(url)
>>> f.read(1854)
'\xef\xbb\xbf<?xml version="1.0" encoding="utf-8"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">...snip...</rss>'

明らかに、これは、正確な長さを事前に常に知っている場合にのみ役立ちます。部分的な読み取りが例外の属性として返されるという事実を使用して、コンテンツ全体をキャプチャできます。

>>> try:
...     contents = f.read()
... except httplib.IncompleteRead as e:
...     contents = e.partial
...
>>> print contents
'\xef\xbb\xbf<?xml version="1.0" encoding="utf-8"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">...snip...</rss>'

このブログ投稿は、これがサーバーの障害であることを示唆しており、舞台裏で物事を処理するために上記httplib.HTTPResponse.read()のブロックでメソッドにモンキーパッチを適用する方法を説明しています。try..except

import httplib

def patch_http_response_read(func):
    def inner(*args):
        try:
            return func(*args)
        except httplib.IncompleteRead, e:
            return e.partial

    return inner

httplib.HTTPResponse.read = patch_http_response_read(httplib.HTTPResponse.read)

パッチを適用してからfeedparser作業しました。

>>> import feedparser
>>> url = 'http://hattiesburg.legistar.com/Feed.ashx?M=Calendar&ID=543375&GUID=83d4a09c-6b40-4300-a04b-f88884048d49&Mode=2013&Title=City+of+Hattiesburg%2c+MS+-+Calendar+(2013)'
>>> feedparser.parse(url)
{'bozo': 0,
 'encoding': 'utf-8',
 'entries': ...
 'status': 200,
 'version': 'rss20'}

これは物事を行うための最良の方法ではありませんが、うまくいくようです。私はHTTPプロトコルの専門家ではないので、サーバーが間違ったことをしているのか、それともhttplibエッジケースを誤って処理しているのかを確認できません。

于 2013-01-07T23:41:46.017 に答える
0

HTTP の代わりに HTTPS を使用して問題を解決し、正常に動作しました。コードの変更は必要ありませんでした。

于 2019-03-03T19:55:14.253 に答える