Spark (dataproc) でデータ分析を行う目的で、現在 Bigtable に保存されているかなり小さなデータセット (5 ~ GB、150 万行) があり、HBase API (Scala) を介してアクセスします。
ただし、予算も限られているため、Bigtable のコストはかなり高い (2 ~ USD/時間) ため、必要なときにいつでも Bigtable クラスターを削除して再作成することになりました。
明らかな欠点は、データの性質上、新しいクラスターを作成するのにかなりの時間がかかることです。すべてが JSON として 1 つの大きなテキスト ファイルに保存され、クラスターにデータを入力するのに 40~ 分かかります。
だから私が求めているのは、ある種のバックアップ/スナップショットルーチンを実装するなど、これを実行するためのより良い方法があるかどうかです? または、単に Bigtable をまったく使用していません。Google Cloud プラットフォームで他の HDFS の代替手段を見つけることができませんでした。
私は Hadoop とビッグ データの世界にかなり慣れていないので、明らかなことを見逃している場合は無知であることをお許しください。