GitHubアーカイブ プロジェクトは次のように述べています
GitHub Archiveは、公開されているGitHubタイムラインを記録し、アーカイブして、さらに分析するために簡単にアクセスできるようにするプロジェクトです。
このアーカイブは、GoogleBigQueryからもクエリできます。ただし、何かが不足しているか、データの一部しか利用できないようです。
実際、次のクエリを実行すると、1636
WatchEvents(開始または停止)のみが返されますが、Railsリポジトリ14300
はウォッチャーよりも多くをアカウントします。
SELECT actor_attributes_login, created_at, payload_action
FROM [githubarchive:github.timeline]
where repository_name = "rails"
and type="WatchEvent"
order by created_at asc;
取得された最も古いデータは、多かれ少なかれ2.5か月前のもののようです。
データは切り捨てられますか(アーカイブでは奇妙に見えるかもしれません)?BigQueryの使用に関連して私が知らない制限/割り当てはありますか?