python - Python を使用した大規模データの保存とアクセス

Question

サイズが約 500 GB のデータの処理を開始しようとしています。Python を使用して、いつでもデータの小さなコンポーネントにアクセスできるようにしたいと考えています。PyMongo（またはHadoop- Drahkarに感謝）でPyTablesまたはMongoDBを使用することを検討しています。他に考慮すべきファイル構造/DB はありますか?

これから行う操作のいくつかは、ある点から別の点までの距離を計算することです。ブール値テストなどからインデックスに基づいてデータを抽出します。結果は Web サイトでオンラインになる可能性がありますが、現時点ではデスクトップでの分析のみを目的としています。

乾杯

score 1 · Accepted Answer

ビッグデータプロセスでのデータ処理を真剣に検討している場合は、Hadoop を検討することを強くお勧めします。1 つのプロバイダーは Cloudera ( http://www.cloudera.com/ ) です。これは、データ処理用の多くのツールを備えた非常に強力なプラットフォームです。Python を含む多くの言語には、データにアクセスするためのモジュールがあります。また、さまざまな mapreduce、Hive、および hbase ジョブを構築すると、hadoop クラスターが大量の処理を実行できます。

python - Python を使用した大規模データの保存とアクセス

1 に答える 1

Related

Reference