問題タブ [amazon-redshift-spectrum]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
2730 参照

amazon-web-services - AWS Glue スキップ フォルダ

データを S3 に保存し、データを変換し、データを Parquet に変換して、Redshift Spectrum を介してクエリを実行するプロセスがあります。データセットをクロールする Glue クローラーがあり、年、月、日の 3 つのパーティションを使用しています。すべてのファイルは次のように保存されます。

2015 年から最終日までのデータがあり、1300 を超えるパーティション キーが得られます。

これが問題です。数日前から、クローラーから次のメッセージが表示されるようになりました。

この結果、2018 年 8 月は今月クエリを実行してもデータが返されず、もちろん非常に残念です。

私のすべてのデータは同じ ETL プロセスの一部として同じ構造に保存され、クロールが失敗するまでプロセスには何もないため、クローラーが突然先月 (月 = 8) をスキップし始める理由に非常に困惑しています。 . month = 8のテーブルパーティションとフォルダーパーティションに違いがあるかどうかを確認しましたが、何も見つかりません。

これはロングショットですが、なぜこれが発生するのかについて何か意見はありますか?