アプリケーション スタック用にさまざまなコンポーネントを含む kubernetes クラスターをセットアップしています。コンポーネントの数を最小限に抑えながら、ストレージ要件のバランスをとろうとしています。
毎日何万もの HTML ファイル (およびおそらく PDF) をダウンロードする Webスクレーパーがあり、これらを (いくつかの JSON メタデータと共に) どこかに保存したいと考えています。ファイルを冗長でスケーラブルな方法で保存したいのですが、何百万もの小さなファイルを持つことは、たとえば GlusterFS には適していないようです。
同時に、システムで使用されるいくつかの非常に大きなバイナリ ファイル (数ギガバイト) と、おそらく多くの小さなバイナリ ファイル (数十 MB) があります。これらは、MongoDB のような分散 NoSQL DB には適していないようです。
そのため、MongoDB + GlusterFS を使用してこれら 2 つのニーズに個別に対応することを検討していますが、移動部分の数を減らして 1 つのシステムだけを使用したいと考えています。また、たとえば Redhat サポートなしで GlusterFS を使用することに関するさまざまな警告も読みました (これは間違いなくありません)。
誰かが代替案を推薦できますか? セットアップ/保守が簡単で、小さなファイルと大きなファイルの両方をサポートする分散バイナリ オブジェクト ストアを探しています。私たちのセットアップの利点の 1 つは、ファイルが更新または削除されることはめったになく (単に書き込まれてから読み取られる)、インデックス作成 (elasticsearch によって個別に処理される) や読み取りのための高速アクセスさえも必要ないことです。