私はPythonのfeedparserライブラリを使用して、地元の新聞からニュースを取得しています(私の意図は、このコーパスに対して自然言語処理を行うことです)。RSSフィードから過去の多くのエントリを取得できるようにしたいと考えています。
RSSの技術的な問題についてはあまり詳しくありませんが、これは可能であると思います(たとえば、GoogleリーダーとFeedlyは、スクロールバーを動かすと「オンデマンド」でこれを実行できることがわかります)。
私が次のことをするとき:
import feedparser
url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title
エントリは12個程度しかありません。私は何百ものことを考えていました。可能であれば、先月のすべてのエントリかもしれません。これをfeedparserでのみ行うことは可能ですか?
RSSフィードからニュース項目へのリンクのみを取得し、BeautifulSoupでページ全体を解析して必要なテキストを取得するつもりです。別の解決策は、ページ内のすべてのローカルリンクをたどって多くのニュース項目を取得するクローラーですが、今のところそれは避けたいと思います。
-
登場した解決策の1つは、GoogleリーダーのRSSキャッシュを使用することです。
ただし、これにアクセスするには、Googleリーダーにログインする必要があります。誰かが私がPythonからそれを行う方法を知っていますか?(私は本当にウェブについて何も知りません、私は通常数値計算をいじるだけです)。