data
実際の値といくつかの NaN 値を含むデータフレームがあります。特にクラスを使用して、次元を25コンポーネントに減らすために、ランダム射影を使用して局所性に敏感なハッシュを実行しようとしていますsklearn.random_projection.GaussianRandomProjection
。ただし、実行すると:
tx = random_projection.GaussianRandomProjection(n_components = 25)
data25 = tx.fit_transform(data)
私は得るInput contains NaN, infinity or a value too large for dtype('float64')
。これに対する回避策はありますか?すべての NaN 値を、データセットに存在しない値 (-1 など) に変更しようとしました。この場合、私の出力はどの程度有効でしょうか? 私は局所性に敏感なハッシュ/ランダム予測の理論の背後にある専門家ではないので、洞察も役に立ちます。ありがとう。