1

データ分析用のハイブリッド SQL (mySQL を使用) と HDF5 データベース ソリューションを開発しています。私のデータの一部はリレーショナルに非常によく適合し、SQL はクエリ言語として非常に便利で効果的ですが、大きな数値データ (数千または要素/行/列の配列と行列) があります。したがって、これらを HDF5 ファイルに保持し、各観察の共通点に基づいてグループ階層を配置します。そのため、その階層を導出するために使用したフィールドを SQL Select クエリに追加し、インデックスをその特定の観測のデータセット内の位置を含むリレーショナル DB を使用すると、HDF5 ファイル内の数値データをすばやく見つけるために必要なすべてを取得できます。

私はこれをすべてPython、Numpy、およびh5pyで書いています。しかし、ある時点で、全体をより使いやすくし、クエリと視覚化のために Web サーバーで利用できるようにしたいと考えています。私の最初の推測では、Django や SQLAlchemy のような ORM から始めて、実際のスクリプトをいくつか追加して HDf5 を処理することです。特にこのレベルで、このタイプのハイブリッドアプローチの経験がある人はいますか? 初心者のためのヒントはありますか?

4

2 に答える 2

2

この作業に興味があるかもしれません: HDF5 を介した軽量データ管理レイヤーのサポート

ところで、この作業の後、インデックス作成、サンプリング、構造グループ化などのより多くの機能が開発されました。

于 2013-12-28T19:13:02.797 に答える