私はPythonのfeedparserライブラリを使用して、RSSフィードからさまざまな詳細を取得しています。ニュースチャンネルのRSSフィードから25のヘッドラインタイトルを引き出したとします。1時間後、feedparserコマンドを再度実行して、25の新しいヘッドラインのタイトルの最新リストを取得します。2回目にfeedparserコマンドを実行したときに、リストが更新される場合と更新されない場合があります。
見出しのいくつかは同じかもしれませんし、いくつかは新しいかもしれません。1時間前に削除されたヘッドラインで、ニュースのヘッドラインのいずれかに更新があったかどうかを確認できる必要があります。新しいヘッドラインのみをデータベースにプッシュする必要があります。これは、重複がデータベースにダンプされないようにするためです。
コードは次のようになります。
import feedparser
d = feedparser.parse('www.news.example.xml')
for item in d.entries:
hndlr.write(item.title) #data being dumped into a database
上記のコードを1時間ごとに実行し、見出し(タイトル)に更新があったかどうかを確認できるようにする必要があります。また、1時間前に抽出されたデータに変更があった場合は、新しいデータのみをデータベースにダンプする必要があります。