python - Pythonで大きなデータプールを処理する

Question

私は人々の行動を研究することを目的とした学術プロジェクトに取り組んでいます。

プロジェクトは3つの部分に分けられます：

データは、すべてID番号を持ち、身長、体重、年齢などのいくつかの特性を持つ人々のリストで構成されています。

このデータから簡単にグループを作成する必要があり（たとえば、すべて特定の年齢、または高さの範囲）、データは数TBの大きさです（ただし、2〜3 GBの小さなサブセットでは減らすことができます）。

私はプロジェクトの背後にある理論的なことについて強いバックグラウンドを持っていますが、私はコンピューター科学者ではありません。私はjava、C、Matlabを知っていますが、今はpythonを学んでいます。

Pythonは簡単そうに見え、Javaの冗長性を大幅に減らすので、Pythonを使用したいと思います。問題は、データプールをどのように処理するのか疑問に思っていることです。

私はデータベースの専門家ではありませんが、ここでデータベースが必要だと思います。どのツールを使うべきだと思いますか？

目的はデータのセットに非常に高度な数学関数を実装することであるため、ソースコードの複雑さを軽減したいことを忘れないでください。速度は問題ではありません。

score 5 · Accepted Answer

5

于 2011-04-03T11:01:28.683 に答える

score 3 · Accepted Answer

MongoDBのようなNoSQLデータベースを使用すると、SQLを学習するよりも、このような場合にデータを処理するのがはるかに簡単になります。

score 1 · Accepted Answer

あなたは専門家ではないので、データを保存するバックエンドとしてmysqlデータベースを使用することをお勧めします。習得が容易で、SQLを使用してデータをクエリし、pythonを使用してデータを書き込むことができます。このMySQLガイド Pythonを参照してください。 -Mysql

3 に答える 3