大量の Google バズのデータをスクレイピングしたところですが、同じニュース記事を参照しているバズの投稿を知りたいと思っています。問題は、これらの投稿のリンクの多くが URL 短縮サービスによって変更されていることです。そのため、多くの異なる短縮 URL が実際にはすべて同じニュース記事を指している可能性があります。
何百万もの投稿があることを考えると、私にとって最も効率的な方法(できればPythonで)は何ですか
- URL が短縮 URL であるかどうかを検出します (多くの URL 短縮サービスのいずれか、または少なくとも最大のものから)
- 短縮 URL の「宛先」、つまり短縮 URL の長い元のバージョンを見つけます。
URL 短縮サービスが厳密なリクエスト レート制限を課しているかどうかは誰にもわかりませんか? これを 1 秒あたり 100 に抑えると (すべて同じ IP アドレスから送信されます)、問題が発生すると思いますか?
更新と暫定 的な解決策 応答は、次の簡単な解決策につながりました
import urllib2
response = urllib2.urlopen("http://bit.ly/AoifeMcL_ID3") # Some shortened url
url_destination = response.url
それでおしまい!