データを S3 に保存し、データを変換し、データを Parquet に変換して、Redshift Spectrum を介してクエリを実行するプロセスがあります。データセットをクロールする Glue クローラーがあり、年、月、日の 3 つのパーティションを使用しています。すべてのファイルは次のように保存されます。
<bucket>/<folder>/<folder>/<folder>/year=2018/month=8/day=20
2015 年から最終日までのデータがあり、1300 を超えるパーティション キーが得られます。
これが問題です。数日前から、クローラーから次のメッセージが表示されるようになりました。
INFO : Folder partition keys do not match table partition keys, skipped folder: <bucket>/<folder>/<folder>/<folder>/year=2018/month=8/
この結果、2018 年 8 月は今月クエリを実行してもデータが返されず、もちろん非常に残念です。
私のすべてのデータは同じ ETL プロセスの一部として同じ構造に保存され、クロールが失敗するまでプロセスには何もないため、クローラーが突然先月 (月 = 8) をスキップし始める理由に非常に困惑しています。 . month = 8のテーブルパーティションとフォルダーパーティションに違いがあるかどうかを確認しましたが、何も見つかりません。
これはロングショットですが、なぜこれが発生するのかについて何か意見はありますか?