apache-spark - Bigtable/HBase/Spark ワークフローを (経済的に) 改善するための提案

Question

Spark (dataproc) でデータ分析を行う目的で、現在 Bigtable に保存されているかなり小さなデータセット (5 ~ GB、150 万行) があり、HBase API (Scala) を介してアクセスします。

ただし、予算も限られているため、Bigtable のコストはかなり高い (2 ~ USD/時間) ため、必要なときにいつでも Bigtable クラスターを削除して再作成することになりました。

明らかな欠点は、データの性質上、新しいクラスターを作成するのにかなりの時間がかかることです。すべてが JSON として 1 つの大きなテキストファイルに保存され、クラスターにデータを入力するのに 40~ 分かかります。

だから私が求めているのは、ある種のバックアップ/スナップショットルーチンを実装するなど、これを実行するためのより良い方法があるかどうかです? または、単に Bigtable をまったく使用していません。Google Cloud プラットフォームで他の HDFS の代替手段を見つけることができませんでした。

私は Hadoop とビッグデータの世界にかなり慣れていないので、明らかなことを見逃している場合は無知であることをお許しください。

score 1 · Accepted Answer

最初に、Cloud Bigtable を Dataproc で使用する方法を示します。必要に応じて、ジョブをスピンアップして Bigtable にすばやくデータを入力するのは簡単です。

Bigtable は、実際には 1T 以上のデータベース向けに設計されています。5GB のサイズでは、MemcacheまたはRedisを検討することをお勧めします。Redis を使用すると、データを 1 回ロードするだけで済み、インスタンス / クラスターをスピンダウンするときにディスクを節約できます。

apache-spark - Bigtable/HBase/Spark ワークフローを (経済的に) 改善するための提案

3 に答える 3

Related

Reference