Python を使用して、RSS アグリゲーターと同様の方法で機能するアプリケーションを構築しています。これを行うには、feedparser ライブラリを使用しています。ただし、新しいコンテンツがあるかどうかをプログラムに正しく検出させるのに苦労しています。
主にニュース関連のフィードに関心があります。新しいアイテムがフィードに追加されたかどうかを確認するだけでなく、以前の記事が更新されたかどうかも検出できるようにしたいと考えています。唯一の必須項目要素はタイトルまたは説明のいずれかであることを念頭に置いて、これを行うためにフィードパーサーを使用する方法を知っている人はいますか? link 要素も常に存在すると思います。
各アイテムに関連付けられている Feedparser の「id」属性は、単に記事へのリンクのように見えるため、フィード上の新しい記事の検出には役立ちますが、以前の記事の「id」は変更されていないため、更新の検出には役立ちません。
私はstackoverflowの以前のスレッドを見てきました.コンテンツをハッシュするか、タイトル+ URLをハッシュすることを提案した人もいますが、それが何を意味するのか、どのようにそれを行うのかはよくわかりません(実際にそれが正しいアプローチである場合)。