3

サイズが約 500 GB のデータの処理を開始しようとしています。Python を使用して、いつでもデータの小さなコンポーネントにアクセスできるようにしたいと考えています。PyMongo(またはHadoop- Drahkarに感謝)でPyTablesまたはMongoDBを使用することを検討しています。他に考慮すべきファイル構造/DB はありますか?

これから行う操作のいくつかは、ある点から別の点までの距離を計算することです。ブール値テストなどからインデックスに基づいてデータを抽出します。結果は Web サイトでオンラインになる可能性がありますが、現時点ではデスクトップでの分析のみを目的としています。

乾杯

4

1 に答える 1

1

ビッグデータ プロセスでのデータ処理を真剣に検討している場合は、Hadoop を検討することを強くお勧めします。1 つのプロバイダーは Cloudera ( http://www.cloudera.com/ ) です。これは、データ処理用の多くのツールを備えた非常に強力なプラットフォームです。Python を含む多くの言語には、データにアクセスするためのモジュールがあります。また、さまざまな mapreduce、Hive、および hbase ジョブを構築すると、hadoop クラスターが大量の処理を実行できます。

于 2012-10-08T12:08:42.310 に答える