アプリに複数のスレッドがあり、実行中の作業に基づいてログ ファイルを生成しています。通常、複数日にわたって複数回の反復を実行し、15 ~ 20 GB 近くのデータを生成します。ログの反復ごとに特定のフィールドを抽出し、ログと共に保存します。
これらのフィールドでデータ分析を実行する必要があり、将来的に生ログからさらに多くのデータを抽出する可能性があります。これらのファイルを管理し、合計、平均、最小、最大などの分析を行い、それに基づいてレポートを生成するためのコードをさらに作成していることに気づきました。また、スレッドから生成されたデータがファイルに適切に保存されるようにするためのコードも作成します。適切なデータベースを使用して、これらの問題のいくつかを抽象化することは可能ですか?
次の要件を満たすデータベースはありますか
ドキュメントベース
合計、最小、最大、平均、特定のフィールドに基づく統合などのデータ分析を実行できます。
- ログ ファイルから新しいデータを抽出できます。
- 20 GB 相当のデータを生成するのに数日かかることがわかるように、パフォーマンスの高い書き込みまたは読み取りはありません。
- 複数のそのようなアプリケーションを並行して実行していて、それらが同じデータベースにアクセスしている可能性があります。
- ジョイントもやりたいです。
- 私はC#/.NETに取り組んでいます
私が望んでいたソリューションのように見える RethinkDB に出くわしましたが、まだ本番環境に対応しておらず、Linux でのみサポートされていることがわかりました。
ありがとう...