問題タブ [vaex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
50 参照

python - 何百万もの大きなバイナリ ベクトルをクラスタリングしますか?

何百万もの大きなバイナリ ベクトル (10_000 ... 100_000 ビット) を生成したいと考えています。次に、それらを OVERLAP (AND) でクラスター化します。その後、クラスタリングに従ってベクトルを並べ替え、後で保存したいと思います。

Scipy にはクラスタリング手法がありますが、おそらくそのような大規模なデータセットでは機能しません。Numpy は機能しません。メモリ不足になるからです。Vaex は動作する可能性がありますが、クラスタリング アルゴリズムを自分で作成する必要があり、それは Python で作成されるため、低速で読み取り専用になります。また、データを生成するときにどの形式を使用すればよいかわかりません: csv,hdf5 ??

可能な解決策はありますか?他のツールやテクニックはありますか?

可能であれば、それらを生成するときにそれらをクラスター化するオプションもありますか? 巧妙なインデックス作成テクニックを実行する必要があります!!!

0 投票する
1 に答える
422 参照

python - vaex str.split() の 1 列を抽出

私はここで答えたのとほぼ同じものを望んでいますpandas-しかし、それを実行したいですvaex
レイジー コピーと同様vaexに、(私の 2 つの) 列をstr.splitvaex-df に保存しても問題ありません。しかし、のようなものはありませんexpand=True