1

私は、DataSift がさまざまなテクノロジーを使用して Twitter ファイアホースを消費する方法について調べてきました。同じ概念に従う必要があるため、mongo/redis とリアルタイム データのストレージでの使用の違いについて理解を深めたいと考えていました。私の理解は次のとおりです。たとえば、rabbitmq キューの束に単純にデータ (ツイートなど) を消費して配置するには、ストリーム ボリュームが多すぎます。私の懸念は、データ損失の問題です。私の現在のアーキテクチャでは、オープン ストリームに接続してデータを消費し、各投稿またはメッセージを rabbitmq のいくつかのキューにプッシュします。キューには、各メッセージのコピーが保持されます。1 つは処理キュー、もう 1 つはストレージ キューです。

私のボリュームが 100 倍に増加した場合、この現在の設定ではボリュームを処理できず、mongo/redis アプローチを使用する方がよいと言われます。したがって、これがどのように実装されるかはわかりません。次に、ストリームをmongoに消費し、そこからキューに消費しますか?なぜこれがより良いアプローチになるのでしょうか.

4

0 に答える 0