問題タブ [github-archive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
github - GitHubアーカイブからどこまでデータを取得できますか?
GitHubアーカイブ プロジェクトは次のように述べています
GitHub Archiveは、公開されているGitHubタイムラインを記録し、アーカイブして、さらに分析するために簡単にアクセスできるようにするプロジェクトです。
このアーカイブは、GoogleBigQueryからもクエリできます。ただし、何かが不足しているか、データの一部しか利用できないようです。
実際、次のクエリを実行すると、1636
WatchEvents(開始または停止)のみが返されますが、Railsリポジトリ14300
はウォッチャーよりも多くをアカウントします。
取得された最も古いデータは、多かれ少なかれ2.5か月前のもののようです。
データは切り捨てられますか(アーカイブでは奇妙に見えるかもしれません)?BigQueryの使用に関連して私が知らない制限/割り当てはありますか?
sql - GitHubのトップ100リポジトリの成長を追跡しますか?
GitHubのトップ100リポジトリの成長を追跡しようとしています。私は次のクエリを持っています:
これにより、2012年4月1日のフォークによる最大のリポジトリ100が得られます。次に、リポジトリごとに毎月フォークの数がどのように増加するかを追跡したいと思います。
したがって、次のクエリを作成しました。
この種の私は私が欲しいものを与えてくれますが、完全ではありません。代わりに、次のクエリが必要です。
- 各月のフォークの総数(レポごと)に単一の数値を指定します
- 最初のクエリで識別された100個のリポジトリを検索します
どうすればこれを達成できますか?
github - githubarchive レスポンスの解析
Github Data Challenge へのエントリに取り組み、一連の PushEvents を分析しようとしていますが、奇妙な (?) 結果が得られます。
このスクリプトは正常に機能しますが、人によって行われたほとんどのコミットを見ると
誰かが 1 日で 7,000 件以上のコミットを行っているのを見ました。私が通り抜けて印刷するとき
印刷された結果はすべて基本的に同じです。
PushEvent に関連付けられたコミット メッセージは「'git notes add' によって追加されたメモ」であると推測されますが、これは正しいように見えますか? それとも、ここでいくつかのデータを読み違えていますか?
github-archive - GitHub アーカイブからデータを取得する
http://data.githubarchive.org/2012-04-15.json.gzと入力して、GitHub アーカイブから履歴データを取得しようとしましたが、データが取得されませんでした。
GitHub でのアクティビティに関するデータを取得するにはどうすればよいですか?
python - 10,000 以上の JSON ファイルを 1 つの SQLite データベースに変換しますか?
わかりましたので、どういうわけかgithubarchiveデータを使用する単純なWebアプリを構築したかったのです。最初は BigQuery データベースとその API を使用するつもりでしたが、私の無料割り当ては 1 日で終了してしまいます。
だから、私がやったことは、サイトからすべての 2012/2013 レコードをダウンロードし、それらをフォルダーに抽出することです。今では、アプリのデータを取得するために使用したい 10,000 以上の json ファイルがあります。
だから私が欲しいもの: このデータを視覚化する GAE (python) または Django アプリを作成します。このために、json ファイルをデータベースに変換する必要があります。SQLite を使用したいのですが、どれが最適かわかりません。DB の作成がまったく必要かどうかはわかりませんが、それが今考えられることです。
誰か私に提案はありますか?
google-bigquery - Google BigQuery: クエリ結果の値に対して個別の行を取得するにはどうすればよいですか
github アーカイブ ( http://www.githubarchive.org/ ) データで Google BigQuery を使用して、最新のイベント時のリポジトリの統計を取得しようとしています。ウォッチャー。私はこれがたくさんあることを認識していますが、1 つのクエリでそれを取得することに本当に近づいているように感じます。
これは私が今持っているクエリです:
唯一の問題は、監視されている最高のリポジトリ (twitter ブートストラップ) からのすべてのイベントを取得することです。
結果:
...
これを取得して、repository_name の単一の結果 (最新、別名 Max(time)) を返すにはどうすればよいですか?
私はもう試した:
それが機能するかどうかはわかりませんが、エラーメッセージが表示されるので問題ありません:
どんな助けでも素晴らしいでしょう、ありがとう。
sql - Google BigQuery SQL ステートメント
Google Big Query を使用して GitHub アーカイブからデータを取得しようとしています。リクエストしている現在のデータ量は BigQuery が処理するには(少なくとも無料枠では)多すぎるため、リクエストの範囲を制限しようとしています。
現在1000 を超えるスターを持つリポジトリのみが過去のデータを返すように、データを制限したいと考えています。リポジトリが取得した最初の 1000 個のスターの履歴データが除外されるため、単に repository_watchers > 1000 と言うよりも複雑です。
編集:私が使用したソリューション(@Brianの回答に基づく)
github - Github アーカイブから最新のリポジトリ情報を取得する
github アーカイブ タイムライン データセットで Google Big Query を使用して、リポジトリに関する最新情報を取得したいと考えています。
max(created_at) に参加しようとしましたが、非常に不完全な情報が得られます。rails repo のクエリは次のとおりです。
このデータセットには 2011 年より前のデータが含まれていないことはわかっていますが、最近アクティブなリポジトリに関する情報が含まれているはずです
このクエリの結果がわかりません:
- 常に「PushEvent」よりも古いタイプ「CreateEvent」のイベントのみを返します。
- メインの Rails リポジトリは返されません: https://github.com/rails/rails
- Github 検索では、「rails」という名前の 147149 個のリポジトリが報告され、クエリでは 476 個のリポジトリしか返されません
私のクエリは何らかの形で false ですか? PushEvents を返さないのはなぜですか? github アーカイブ データセットに関する別のトリックはありますか?