Redshift Spectrumで頻繁に発生する問題に直面してDisk Full error
いるため、クラスターを繰り返しスケールアップする必要があります。キャッシュが削除されるようです。
理想的には、キャッシングを維持するためにスケールアップし、クエリで必要なディスク容量を知る方法を見つけたいと考えています。
Redshift Spectrum のキャッシングについて説明しているドキュメントはありますか、それとも同じメカニズムを Redshift に使用していますか?
編集:ジョン・スコットのリクエストに応じて、質問を更新しています
SELECT p.postcode,
SUM(p.like_count),
COUNT(l.id)
FROM post AS p
INNER JOIN likes AS l
ON l.postcode = p.postcode
GROUP BY 1;
S3 で圧縮されたデータの合計は、約 1.8 TB です。Athena は 10 分かかり、700 GB をスキャンして教えてくれましたQuery exhausted resources at this scale factor
編集 2: 16 TB の SSD クラスターを使用しました。