経由でデータをデータ カタログにクロールする作業を行っていますaws glue
。しかし、データベースの定義について少し混乱しています。aws docで見つけたものから、A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.
. データベースには正確に何が含まれているのだろうか。他のデータ ソースからすべてのデータを読み込み、カタログを作成しますか? それとも、カタログのみが含まれていますか? グルー データベースのテーブルのサイズを知るにはどうすればよいですか? そして、どのタイプのデータベースを使用しますnosql
かrds
?
たとえば、データをロードするクローラーをs3
作成し、 でカタログ テーブルを作成しますglue
。glue
テーブルには からのすべてのデータが含まれていますs3 bucket
か? バケットを削除するs3
と、クローラーによって作成されたカタログ テーブルに対して実行されるglueの他のジョブに影響がありますか?
カタログ テーブルにデータ スキーマのみが含まれている場合、データ ソースが変更された場合にデータを更新し続けるにはどうすればよいですか?