0

フィード URL を Google リーダーまたはデスクトップ フィード アグリゲーターに追加すると、良い結果が得られます。URL は次のとおりです。

http://estaticos03.marca.com/rss/futbol_1adivision.xml

しかし、スクリプト (python スクリプト、feedparser ライブラリを使用) から同じ URL をフェッチすると、同じ結果に対してわずかに異なるコンテンツが得られます (たとえば、各エントリのタイトルは異なり、すべて大文字です)。

私のような人々が自分のプロジェクトのコンテンツを解析するのを思いとどまらせるために、サーバー側で何かが行われていると思います (フィードは人気のあるサッカー新聞からのものです)。いくつかのユーザー エージェント (Google リーダーなど) を渡そうとしましたが、まだうまくいかないので、IP もチェックするのでしょうか? 私は本当に混乱しています。

なぜこれが私に起こっているのですか?

ありがとう!

4

3 に答える 3

0

わかりました、私はそれを見つけました。(@TryPyPy として) 受け取ったソース XML を分析しました。私は feedparser ライブラリを信頼しすぎていました。最新の公式バージョン (4.1) には、元のタグではなくメディア名前空間のタイトル タグを間違えることに関連するバグがあります。

http://code.google.com/p/feedparser/issues/detail?id=76

それで、トランクから再インストールしたところ、すべて問題ありません。とにかく助けてくれてありがとう!

于 2011-01-12T17:13:17.917 に答える
0

私の知る限り、Googleリーダーはコンテンツを美しくするためにいくつかの「魔法」を行っています。インターフェイスを壊さないように、いくつかのタグとスタイルを取り除きます。

違いについて詳しく教えていただけますか?

于 2011-01-09T23:27:33.337 に答える
0

スクリプトのユーザー エージェントを変更しましたか? Firefox を真似して、何が起こるか見てみましょう。

于 2011-01-10T01:13:31.537 に答える