問題タブ [dimensionality-reduction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 数値データとカテゴリデータの両方がある場合、LSH でランダムな予測を行う方法は?
注 : 最近傍クエリに LSH を使用する
データ セットに 5 つの特徴 (f1、f2、..、f5) があると仮定します。最初の 2 つは数値で、3 つはカテゴリです。これらのカテゴリの 1 つまたは多くは、ユーザー名やサブジェクトのようなもので、エンコードするには非常に大きくなります。
Mixeducledian Distance を距離の尺度として使用し、それをハッシュ関数で使用する場合、関数のランダム射影をどのように選択すればよいですか?
HashFunction を変更する必要がある場合は問題ありません。
サンプルデータ
pandas - NaN 値を含むデータフレームを使用した Python Pandas のランダム射影
data
実際の値といくつかの NaN 値を含むデータフレームがあります。特にクラスを使用して、次元を25コンポーネントに減らすために、ランダム射影を使用して局所性に敏感なハッシュを実行しようとしていますsklearn.random_projection.GaussianRandomProjection
。ただし、実行すると:
tx = random_projection.GaussianRandomProjection(n_components = 25)
data25 = tx.fit_transform(data)
私は得るInput contains NaN, infinity or a value too large for dtype('float64')
。これに対する回避策はありますか?すべての NaN 値を、データセットに存在しない値 (-1 など) に変更しようとしました。この場合、私の出力はどの程度有効でしょうか? 私は局所性に敏感なハッシュ/ランダム予測の理論の背後にある専門家ではないので、洞察も役に立ちます。ありがとう。
python - カーブ フィッティングを使用してデータの次元を削減する
私は機械学習の初心者で、scikit-learn を使用したことがありません。私はプロジェクトに取り組んでいます。プロジェクトの一環として、機械学習アルゴリズムをトレーニングして、いくつかの観察結果を個別のクラスに分類する必要があります。センサーからの観測を処理して、いくつかのデータを生成しました。しかし、処理されたデータの問題は、それが異なる観測に対して異なる長さのベクトルであることです。
この画像はデータの一部を示しています。緑の線はガウス フィルターを適用した後の生データで、赤の線はデータへの 16 度の多項式適合を示しています。1 行目は 3 つのピークを持つデータで構成され、2 行目は 4 つのピークを持つデータを含み、3 行目は 5 つのピークを持つデータを含みます。データを別々のクラスに分類できるようにしたい。
現在、多項式の係数を特徴ベクトルとして使用する予定です。最初の行は問題ありませんが、ピークの数が多い場合、多項式の適合が不十分になり、適切な分類につながらない可能性があります。高次多項式を使用してみましたが、ピーク数が少ない場合に誤動作が発生します。これはいくつかのクラスのサブセットにすぎないため、ピークの数をカウントするだけでは分類に使用できません。分類は、観察されたピークの相対的なサイズと分離にも依存しますが、この情報は多項式の適合ではあまり明確ではありませんピーク数が多い。
あるのか知りたい
- データを分類するための特徴ベクトルを生成するのに役立つ多項式を当てはめようとする代わりに、他の方法があります。
- Pythonで高次元のデータを可視化する方法
編集:
私は現在、多項式の代わりにスプラインを使用してデータscipy.interpolate.UnivariateSpline
に適合させており、はるかに優れた適合を生成しています。ノットの位置とスプラインの係数を使用できるようになりました。しかし、これらのベクトルの長さは一定ではなく、同じ観測が 2 回繰り返されても異なります。誰かがそれを一定の長さのベクトルにマップする方法を提案できますか?
artificial-intelligence - 次元削減は可逆的ですか?
ENCOG を使用して次元削減アルゴリズムを実装しました。これは、複数の機能を持つデータセット (A と呼びます) を取り、それを 1 つの機能だけを持つデータセット (B) に削減します (時系列分析に必要です)。
ここで私の質問は、時系列分析によって予測された B からの値を持っていることです。A データセットのように 2 つの次元に戻すことはできますか?
python - scikit KernelPCAの不安定な結果
データセットの次元を2Dに削減するためにKernelPCAを使用しようとしています(視覚化とさらなるデータ分析の両方のために)。
ガンマのさまざまな値で RBF カーネルを使用して KernelPCA の計算を実験しましたが、結果は不安定です。
(各フレームはガンマのわずかに異なる値であり、ガンマは 0 から 1 まで連続的に変化します)
決定論的ではないようです。
それを安定させる/決定論的にする方法はありますか?
変換されたデータの生成に使用されるコード:
r - R- 次元削減 LSA
私はsvdの例に従っていますが、最終的な行列の次元を減らす方法はまだわかりません:
しかし、recon
それでも同じ次元を持っています。これをセマンティック分析に使用する必要があります。
pca - 主成分分析が遅すぎる (MLPY Python)
Python で MLPY API の PCAFast メソッドを使用しています ( http://mlpy.sourceforge.net/docs/3.2/dim_red.html )
このメソッドは、次のように生成された特徴マトリックスを学習すると、非常に高速に実行されます。
このコマンドの出力例は次のとおりです。
ただし、特徴行列 x が次のようなデータで構成されている場合:
出力例:
メソッドは非常に遅くなります...なぜこれが起こるのですか? これは、x 機能マトリックスに格納されているデータの種類と関係がありますか?
これを解決する方法についてのアイデアはありますか?
python - sklearn または gensim を使用した教師付き次元削減/トピック モデル
私はBOWベクトルを持っています.sklearnまたはgensimに、高次元の教師付きデータを取得して、これらのクラス間の分散を保持する低次元空間に投影できる教師付き次元削減アルゴリズムがあるかどうか疑問に思っています.
実際、分類/回帰の適切なメトリックを見つけようとしていますが、次元を使用すると役立つと思います。監視されていない方法があることは知っていますが、途中でラベル情報を保持したいと考えています。