2

GitHubアーカイブ プロジェクトは次のように述べています

GitHub Archiveは、公開されているGitHubタイムラインを記録し、アーカイブして、さらに分析するために簡単にアクセスできるようにするプロジェクトです。

このアーカイブは、GoogleBigQueryからもクエリできます。ただし、何かが不足しているか、データの一部しか利用できないようです。

実際、次のクエリを実行すると、1636WatchEvents(開始または停止)のみが返されますが、Railsリポジトリ14300はウォッチャーよりも多くをアカウントします。

SELECT actor_attributes_login, created_at, payload_action
FROM [githubarchive:github.timeline]
where repository_name = "rails"
and type="WatchEvent"
order by created_at asc;

取得された最も古いデータは、多かれ少なかれ2.5か月前のもののようです。

データは切り捨てられますか(アーカイブでは奇妙に見えるかもしれません)?BigQueryの使用に関連して私が知らない制限/割り当てはありますか?

github-アーカイブ

4

1 に答える 1

7

そのとおりです。プロジェクト/クローラーは今年の3月11日に公開されたため、現在のアーカイブはその日に開始されます。githubarchive.orgページにこれに関するメモがありますが、もっと見やすく、明確にする必要があると思います。

GitHubチームには、より多くの履歴を利用できるようにすることについてのスレッドがありますが、私はまだETAを持っていません。指が交差した:-)

于 2012-05-24T19:01:57.660 に答える