7

feedparserまたはその他の Python ライブラリを使用して、RSS フィードをダウンロードおよび解析します。newアイテムとアイテムを確実に検出するにはどうすればよいmodifiedですか?

これまでのところ、最新のアイテムよりも発行日が早いフィードの新しいアイテムを見てきました。また、フィード リーダーが、公開された同じアイテムをわずかに異なるコンテンツで別のアイテムとして表示しているのを見てきました。私はフィード リーダー アプリケーションを実装していません。フィード データをアーカイブするための適切な戦略が必要なだけです。

4

2 に答える 2

6

フィード ソースをどれだけ信頼しているかによって異なります。feedparser は、フィード アイテムの .id 属性を提供します。この属性は、RSS ソースと ATOM ソースの両方で一意である必要があります。例については、feedparser のATOM docsなどを参照してください。.id はほとんどの場合をカバーしますが、ソースが同じ ID を持つ複数のアイテムを公開する可能性があると考えられます。その場合、アイテムのコンテンツをハッシュする以外に選択肢はありません。

于 2009-04-01T01:22:33.940 に答える