python - Python / scikit-learn での距離計算のスパース実装

Question

次のようにロードするsvmlight形式の大きな（100K x 30K）および（非常に）まばらなデータセットがあります。

import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist, squareform
from sklearn.datasets import load_svmlight_file

X,Y = load_svmlight_file("somefile_svm.txt")

スパース scipy 配列 X を返します

すべてのトレーニングポイントのペアごとの距離を次のように計算するだけです。

D = pdist(X)

残念ながら、scipy.spatial.distance の距離計算の実装は、密行列に対してのみ機能します。データセットのサイズが原因で、たとえば pdist を次のように使用することは実行不可能です。

D = pdist(X.todense())

この問題に関する疎行列距離計算の実装または回避策へのポインターは大歓迎です。

どうもありがとう

score 5 · Accepted Answer

疎行列と密なnumpy配列の両方で機能する関数がscikit-learnあります。リファレンスドキュメントsklearn.metrics.euclidean_distancesを参照してください。

ただし、非ユークリッド距離はスパース行列にはまだ実装されていません。

python - Python / scikit-learn での距離計算のスパース実装

1 に答える 1

Related

Reference