私は Python を使用したデータ分析に比較的慣れていないので、データにインデックスを付けて計算に使用できるように、データを読み取る最も実用的で便利な方法を決定しようとしています。np.arrays の形式で多くの画像があり、それぞれに x 座標と y 座標、サイズ、フィルター番号などの対応するデータ セットがあります。各データ セットがグループ化されていることを確認したいだけです。対応画像。私が最初に考えたのは、dataclass インスタンスの np.array にデータを貼り付けることでした (配列の各要素は、すべてのデータを含むインスタンスです)。2 番目に考えたのは、パンダのデータフレームです。
私の直感は、データフレームを使用する方が理にかなっていると言っています。np.arrays はデータフレーム内に適切に保存されますか? 各方法の長所と短所は何ですか?また、それらから頻繁にデータを取得する必要があり、データが対応する画像と一致することを常に確認する必要がある場合は、どれが最適ですか?
読み込む必要のある変数: x_coord - float、y_coord - float、filter - int、image - np.ndarray。
画像配列を pandas データフレームに貼り付けようとしましたが、それを使用してインデックスを作成すると.loc
、Jupyter Notebook セルの実行が非常に遅くなります。を使用してデータフレームにデータを入力するのも非常に遅かった.from_dict()
です。データフレームは np.ndarrays を保持するためのものではなかったと思いますか?
私の最大の関心事は、簿記とインデックス作成の容易さです。対応する画像のメタデータを常に取得できるようにするにはどうすればよいですか? 画像とそのメタデータ、または同じフィルター番号を持つすべての画像などを簡単に抽出できるように、データをどのような形式にする必要がありますか?