Pythonを使って約5000社のGoogle Newsを取得しようとしています。
12時間ごとに実行するようにジョブをスケジュールしました。
私が実際に行っているのは、Google ニュース リンク ( https://news.google.com/news/feeds?q=MyQuery&output=rss ) を使用して会社のリンクを作成し、返された XML を解析して目的のデータを取得することです。
問題は、20 分ごとに 500 社ほどの結果が返され、フィードが返されることですが、その後、空の結果が返され始めます。リンクを開くと、エントリがありますが、コードの実行中に、500社ほどのニュースを提供した後、結果が返されなくなります。
Google ニュースのレート制限または単位時間あたりの制限はありますか?
以下は私のコードです
companies = Company.objects.all() #About 6000 Companies
for company in companies:
try:
SearchQuery = company.query
SearchQuery = SearchQuery.replace(' ', '%20')
rss = "https://news.google.com/news/feeds?q="+SearchQuery+"&output=rss"
feeds = feedparser.parse(rss)
for post in feeds['entries']:
try:
url = post.link
print("RSS Entry, Link: " + url)
title = post.title
print("Inserting Article (Title): "+title)
except Exception:
exc_type, exc_value, exc_traceback = sys.exc_info()
print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))
except Exception:
exc_type, exc_value, exc_traceback = sys.exc_info()
print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))
どうもありがとうございました。
ありがとう