github アーカイブ タイムライン データセットで Google Big Query を使用して、リポジトリに関する最新情報を取得したいと考えています。
max(created_at) に参加しようとしましたが、非常に不完全な情報が得られます。rails repo のクエリは次のとおりです。
SELECT *
FROM [githubarchive:github.timeline] a
JOIN EACH
(
SELECT MAX(created_at) as max_created, repository_url
FROM [githubarchive:github.timeline]
GROUP EACH BY repository_url
) b
ON
b.max_created = a.created_at and
b.repository_url = a.repository_url
WHERE payload_ref_type="repository" AND a.repository_name = 'rails'
このデータセットには 2011 年より前のデータが含まれていないことはわかっていますが、最近アクティブなリポジトリに関する情報が含まれているはずです
このクエリの結果がわかりません:
- 常に「PushEvent」よりも古いタイプ「CreateEvent」のイベントのみを返します。
- メインの Rails リポジトリは返されません: https://github.com/rails/rails
- Github 検索では、「rails」という名前の 147149 個のリポジトリが報告され、クエリでは 476 個のリポジトリしか返されません
私のクエリは何らかの形で false ですか? PushEvents を返さないのはなぜですか? github アーカイブ データセットに関する別のトリックはありますか?