3

Pythonを使って約5000社のGoogle Newsを取得しようとしています。

12時間ごとに実行するようにジョブをスケジュールしました。

私が実際に行っているのは、Google ニュース リンク ( https://news.google.com/news/feeds?q=MyQuery&output=rss ) を使用して会社のリンクを作成し、返された XML を解析して目的のデータを取得することです。

問題は、20 分ごとに 500 社ほどの結果が返され、フィードが返されることですが、その後、空の結果が返され始めます。リンクを開くと、エントリがありますが、コードの実行中に、500社ほどのニュースを提供した後、結果が返されなくなります。

Google ニュースのレート制限または単位時間あたりの制限はありますか?

以下は私のコードです

companies = Company.objects.all() #About 6000 Companies
for company in companies:
    try:
        SearchQuery = company.query
        SearchQuery = SearchQuery.replace(' ', '%20')
        rss = "https://news.google.com/news/feeds?q="+SearchQuery+"&output=rss"
        feeds = feedparser.parse(rss)
        for post in feeds['entries']:
            try:
                url = post.link
                print("RSS Entry, Link: " + url) 
                title = post.title
                print("Inserting Article (Title): "+title)
            except Exception:
                exc_type, exc_value, exc_traceback = sys.exc_info()
                print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))       
    except Exception:
        exc_type, exc_value, exc_traceback = sys.exc_info()
        print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback))) 

どうもありがとうございました。

ありがとう

4

0 に答える 0