私はいくつかの機械学習技術を試しています。この場合、クラスタリング用のPSO-KMeanです。
Stack Exchange API を起動してタグのリストと各タグの数を取得し、それを「タグ スペース」内の各サイトの位置を表す float の配列に変換してテストすることを考えました。
Py-Stack-Exchangeを使用しています
from stackauth import StackAuth
import stackexchange
site_data = {}
n_sites= 20
for site_auth in StackAuth().sites()[3:n_sites+3]: #Skip big 3
site=site_auth.get_site()
site_tags = {}
for tag in site.all_tags():
site_tags[(tag.name)]=tag.count
site_data[site.domain] = site_tags
数回いじった後 、これは10,000リクエストの制限を超えたに違いありません。StackExchangeError: 502 [throttle_violation]: too many requests from this IP, more requests available in 81719 seconds
したがって、サイト上のすべてのタグに対してリクエストを行って、そのカウントを取得していると思います。これは誰にとっても良くありません。私にとっては遅く、Stack Exchange Infrastructure での作業が増えます。サイトごとに 1 ヒットで情報を取得する方法が必要だと思いますが、それを解決するための API に精通していません。