私は人々の行動を研究することを目的とした学術プロジェクトに取り組んでいます。
プロジェクトは3つの部分に分けられます:
- 一部のリモートソースからデータを読み取り、それを使用してローカルデータプールを構築するプログラム。
- このデータプールを検証し、一貫性を保つためのプログラム
- 人々がデータを読み取ったり操作したりできるようにするためのWebインターフェース。
データは、すべてID番号を持ち、身長、体重、年齢などのいくつかの特性を持つ人々のリストで構成されています。
このデータから簡単にグループを作成する必要があり(たとえば、すべて特定の年齢、または高さの範囲)、データは数TBの大きさです(ただし、2〜3 GBの小さなサブセットでは減らすことができます)。
私はプロジェクトの背後にある理論的なことについて強いバックグラウンドを持っていますが、私はコンピューター科学者ではありません。私はjava、C、Matlabを知っていますが、今はpythonを学んでいます。
Pythonは簡単そうに見え、Javaの冗長性を大幅に減らすので、Pythonを使用したいと思います。問題は、データプールをどのように処理するのか疑問に思っていることです。
私はデータベースの専門家ではありませんが、ここでデータベースが必要だと思います。どのツールを使うべきだと思いますか?
目的はデータのセットに非常に高度な数学関数を実装することであるため、ソースコードの複雑さを軽減したいことを忘れないでください。速度は問題ではありません。