0

私が今やっているよりも良い方法があると思うことから始めましょう...だから、私が別の技術を使うべきだというコメントや回答を投稿しないでください。 「合理的に」特定の質問。

少し背景:

基本的に、私は毎日さまざまな、しかしかなり構造化されたデータ フィード (CSV ファイル) を処理しているシステムを持っています。これはかなり一般的な ETL タイプのシステムです。すべてをメモリ内で実行する Python スクリプトの作成から始めました。しかし、db スキーマで簡単に記述できるルールをチェックして適用するために、大量のコードを書いていることがわかりました。そのため、処理するファイルの場所 (s3 上) とそれを実行するためにロードする PostgreSQL db スクリプトを持つ一連の SQS キュー (ソースごとに 1 つ) があります。ハッキー?はい; おそらく。しかし、ある意味では、すべてのルールを PostgreSQL で定義するのは非常に簡単です。少なくとも約 15 年の RDBMS の経験を持つ私にとっては (ハンマーしか持っていないとき、すべてが釘のように見えるという古い言い回しは何ですか?)

したがって、すべてがうまく機能します。しかし、EC2 インスタンスを作成するときは、image_id とタイプ/サイズを選択できます。私が使用しているベースの「PostgreSQL ワーカー イメージ」がありますが、実際には 1 つのサイズ (マイクロ) に対応しています。

でも、今は、小か中かでどんな利益が得られるか試してみようと思っています。私の最初の考えは、個別の image_ids を作成し、それらに合わせた postgres conf 設定を使用することでした。しかし、少し厄介なようです。(しかし、全体が少し面倒でハッキーです)

私が用意しているものを考えると、AMI を分離するよりもこれを達成するためのより良い方法はありますか?

最終的な注意事項:

私の AMI はすべて PostgreSQL 9.1 と Ubuntu 12.04 です。そして、DB は単なる一時的なストレージです。それらは、データの読み込み/処理/出力に必要な 15 分から 20 分間だけ存在します。

SE の DBA サイトでこの質問の回答が得られると思われる場合は、お気軽にコメントを追加してください。私は通常、StackOverflow から始めます。これは、より大きなコミュニティであり、より親しみを感じられるコミュニティだからです。私は DBA というよりはむしろ開発者です。

4

0 に答える 0