BigQuery で github 公開データセットにクエリを実行しています。現在、必要なものに対する私の最良のクエリは次のようになります。
SELECT type, created_at, repository_name FROM [githubarchive:github.timeline]
WHERE
(created_at CONTAINS '2012-')
AND repository_owner="twitter"
ORDER BY created_at, repository_name;
これにより、repository_owner twitter (または他のユーザー) から、このユーザーが所有するすべてのリポジトリ ("repository_name") のすべてのイベント ("type") が 1 つの列に表示されます。
ただし、私が本当に望んでいるのは、すべてのイベント (「タイプ」) を列に入れ、リポジトリごとに 1 つの列 (「repository_name」) を多かれ少なかれ次のようにすることです。
bootstrap commons twui
WatchEvent PushEvent PushEvent
WatchEvent WatchEvent PushEvent
タイムスタンプ (「created_at」) は、順序付けメカニズムとしてのみ関連します。列は同じ長さである必要はなく、1 つの行のイベントが同時に発生する必要はありません。
これを使用して、イベントを R パッケージ TraMineR に入れ、シーケンス分析を行います。
どうすればこれを達成できますか?