AWS S3 バケットにファイル「v1.02_train.tar」(Lyft データセットhttps://level5.lyft.com/dataset/から) があります。AWS Glue データカタログに追加しようとしています。
AWS Glue クローラに .tar ファイルからスキーマを検出させるにはどうすればよいですか? ファイルを解凍するのをためらっています。これは、クローラーが各画像ファイルを個別にカタログ化して、何百万ものテーブルをデータ カタログに追加するためです。さらに、S3 バケットのサイズが大きくなり、ストレージのコストが高くなります。
この一連のファイルを最適にカタログ化する方法のアイデアはありますか?