何百万もの大きなバイナリ ベクトル (10_000 ... 100_000 ビット) を生成したいと考えています。次に、それらを OVERLAP (AND) でクラスター化します。その後、クラスタリングに従ってベクトルを並べ替え、後で保存したいと思います。
Scipy にはクラスタリング手法がありますが、おそらくそのような大規模なデータセットでは機能しません。Numpy は機能しません。メモリ不足になるからです。Vaex は動作する可能性がありますが、クラスタリング アルゴリズムを自分で作成する必要があり、それは Python で作成されるため、低速で読み取り専用になります。また、データを生成するときにどの形式を使用すればよいかわかりません: csv,hdf5 ??
可能な解決策はありますか?他のツールやテクニックはありますか?
可能であれば、それらを生成するときにそれらをクラスター化するオプションもありますか? 巧妙なインデックス作成テクニックを実行する必要があります!!!