私は次の方法でプログラミング言語の人気を測定しようとしています:
- と組み合わせたレポの星の数...
- リポジトリで使用されるプログラミング言語と...
- 各言語のコードの合計バイト数 (一部の言語はより詳細/より詳細ではないことを認識)
便利なことに、Github Archive によって提供され、BigQuery によってホストされている大量の Github データがあります。唯一の問題は、Github アーカイブのさまざまなイベント タイプのペイロードで「言語」が利用できないことです。
Github アーカイブ データに言語が入力されている可能性があるかどうか、およびその場所を見つけようとして実行している BigQuery クエリを次に示します。
SELECT *
FROM [githubarchive:month.201612]
WHERE JSON_EXTRACT(payload, "$.repository.language") is null
LIMIT 100
この方法で Github アーカイブ データを利用できるかどうか、またどのように利用できるかについて、誰かが洞察を提供してもらえますか? それとも、他のアプローチを追求する必要がありますか? BigQuery には github_repos パブリック データセットもあることがわかりました。これにはいくつかの言語指標が含まれていますが、言語指標は常に終わっているようです。最終的には、何らかの月次指標 (つまり、特定の月の「アクティブな」リポジトリ、最も人気のある言語) を取得したいと考えています。
どんなアドバイスでも大歓迎です!