私は、1 日のトップ ニュース記事を分析し、統計情報を提供する無料の Web アプリケーションに取り組んでいます。ほとんどのニュース Web サイトは RSS フィードを提供しています。ただし、ニュース Web サイト自体から完全なニュース記事を取得しようとすると、問題が発生します。現時点では、ソース (CNN、NY Times など) ごとに個別のNewsSourceクラスがあり、適切な RSS フィードを読み取り、各リンクをたどり、本文を取り除きます。ニュース Web サイトが記事の HTML 構造を変更することを決定した場合、これは面倒で非常に扱いにくいように思えます。
複数のニュースソースを(要約だけでなく) 記事の全内容と既に集約しているサービス (できれば無料) はありますか? そうでない場合、予告なしに変更される可能性がある異なる HTML 構造を持つ複数のソースを処理するための提案はありますか?