0

データ

データは、 Google Cloud Storageバケット.jsonl.gz内の複数のフォルダに複数のファイルとしてフォーマットされます。

たとえば、データをファイルごとにロードした場合、ロードするファイルは次のようになります。

gs://my-bucket/folder1/something1-10.jsonl.gz
gs://my-bucket/folder1/something11-20.jsonl.gz
gs://my-bucket/folder1/something21-30.jsonl.gz
gs://my-bucket/folder2/something1-10.jsonl.gz
gs://my-bucket/folder2/something11-20.jsonl.gz
gs://my-bucket/folder2/something21-30.jsonl.gz

これらのjsonlファイルの内容は通常と変わりません。つまり、その内容は次のようなものです。

{"name": "Foo", "surname": "Loo"}
{"name": "Lauren", "surname": "Impsum"}
...

個々のファイルは大きくありませんが、それらすべてを合計すると、500 GB をはるかに超える大きなデータセットがあり、メモリにロードして単一のファイルに連結し、クラウドにアップロードするのが非常に困難になります。

BigQuery

BigQuery ではjsonl、圧縮されているかどうかに関係なく、ユーザーがファイルからデータをアップロードできるようです。ただし、複数のファイルや複数のフォルダーからの読み取りはサポートしていないようです。

その他のツール

BigQuery の使用は制限されていませんが、GCP の使用は制限されています (GKE クラスターに基づくデータベース インスタンスの作成を意味する場合でも)。

このデータをデータベースにロードする方法を知っている人はいますか?

4

2 に答える 2