現在、分散オンライン機械学習フレームワークを実装しています。基本的に、このシステムはサンプルのデータストリームを処理します。モデル (パーセプトロン層など) はサンプルごとに更新されます。
だから、大規模な更新をサポートし、単一のエンティティで読み取ることができるデータベースを探しています。mongodb とその「インプレース更新」は良い選択だと思いますが、私のニーズにより適したデータベースがあるかもしれません。
現在、分散オンライン機械学習フレームワークを実装しています。基本的に、このシステムはサンプルのデータストリームを処理します。モデル (パーセプトロン層など) はサンプルごとに更新されます。
だから、大規模な更新をサポートし、単一のエンティティで読み取ることができるデータベースを探しています。mongodb とその「インプレース更新」は良い選択だと思いますが、私のニーズにより適したデータベースがあるかもしれません。
思い切って答えてみます...
私はMongoのかなりの大ファンになったので、それを考慮に入れてください。=)
Mongo は読み取りに適していますが、データに多少の一貫性を持たせたい場合に限ります。Mongo にはレプリカ セットと呼ばれるものがあり、これは基本的にクラスターです。
レプリカ セットには、書き込み/更新を受信できるマシンが1 つだけあります。それはそれらをうまく処理しますが、それは考慮すべきことです。これは、マスター/マスター レプリケーションのセットアップではありません。
書き込み/更新が行われると、それらはレプリカ セット内の他のノードに複製されます。ここで、結果整合性の出番です。
Couchbase/CouchDB のようなものを考えることができます。これもクラスターの概念を持ち、マスター/マスターです。任意のノードに書き込むことができ、最終的には他のノードで使用できるようになります。
考えるべきことがいくつかあります。
編集:
私はモンゴと一緒に行きます。=)