ユーザーが私の Python Web サービスにアクセスすると、非常に興味深いデータ ポイントがたくさん収集されます。たとえば、現在の都市、州、国、ユーザーエージェントなどがあります。私ができるようにしたいのは、これらを何らかのタイプの機械学習システム/アルゴリズム (おそらくベイジアン分類器?) で実行することです。通常とは異なる何かが発生したときに電子メール通知を受け取るという最終的な目標 (異常検出)。たとえば、Jane Doe は Chrome で米国からログインしたことがあります。彼女が Firefox でウクライナから私の Web サービスに突然ログインした場合、私はそれを非常に「異常な」イベントと見なし、通知を送信したいと考えています。
私はすでに CouchDB (具体的には Cloudant) を使用しており、Cloudant / CouchDB はこの種のもの (ビッグデータ分析) に最適であるとオンラインであちこちで言っている人をよく見かけます。しかし、私はどこから始めればよいか完全に途方に暮れています。CouchDB を使用して以前に「学習した」データを保存することは言うまでもなく、Web サービスの範囲外のイベントの比較的単純な追跡に関するドキュメントに関しては、あまり見つけられませんでした。この種のデータ処理を行うための専用システムをいくつか目にしますが (PredictionIO が思い浮かびます)、そもそも CouchDB の性質を考えると、やり過ぎだと感じずにはいられません。
どんな洞察も大歓迎です。ありがとう!