サイズが約 500 GB のデータの処理を開始しようとしています。Python を使用して、いつでもデータの小さなコンポーネントにアクセスできるようにしたいと考えています。PyMongo(またはHadoop- Drahkarに感謝)でPyTablesまたはMongoDBを使用することを検討しています。他に考慮すべきファイル構造/DB はありますか?
これから行う操作のいくつかは、ある点から別の点までの距離を計算することです。ブール値テストなどからインデックスに基づいてデータを抽出します。結果は Web サイトでオンラインになる可能性がありますが、現時点ではデスクトップでの分析のみを目的としています。
乾杯