データ
データは、 Google Cloud Storageバケット.jsonl.gz
内の複数のフォルダに複数のファイルとしてフォーマットされます。
たとえば、データをファイルごとにロードした場合、ロードするファイルは次のようになります。
gs://my-bucket/folder1/something1-10.jsonl.gz
gs://my-bucket/folder1/something11-20.jsonl.gz
gs://my-bucket/folder1/something21-30.jsonl.gz
gs://my-bucket/folder2/something1-10.jsonl.gz
gs://my-bucket/folder2/something11-20.jsonl.gz
gs://my-bucket/folder2/something21-30.jsonl.gz
これらのjsonl
ファイルの内容は通常と変わりません。つまり、その内容は次のようなものです。
{"name": "Foo", "surname": "Loo"}
{"name": "Lauren", "surname": "Impsum"}
...
個々のファイルは大きくありませんが、それらすべてを合計すると、500 GB をはるかに超える大きなデータセットがあり、メモリにロードして単一のファイルに連結し、クラウドにアップロードするのが非常に困難になります。
BigQuery
BigQuery ではjsonl
、圧縮されているかどうかに関係なく、ユーザーがファイルからデータをアップロードできるようです。ただし、複数のファイルや複数のフォルダーからの読み取りはサポートしていないようです。
その他のツール
BigQuery の使用は制限されていませんが、GCP の使用は制限されています (GKE クラスターに基づくデータベース インスタンスの作成を意味する場合でも)。
このデータをデータベースにロードする方法を知っている人はいますか?