“dimensionality-reduction”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

360 参照

r - 数値データとカテゴリデータの両方がある場合、LSH でランダムな予測を行う方法は?

注 : 最近傍クエリに LSH を使用する

データセットに 5 つの特徴 (f1、f2、..、f5) があると仮定します。最初の 2 つは数値で、3 つはカテゴリです。これらのカテゴリの 1 つまたは多くは、ユーザー名やサブジェクトのようなもので、エンコードするには非常に大きくなります。

Mixeducledian Distance を距離の尺度として使用し、それをハッシュ関数で使用する場合、関数のランダム射影をどのように選択すればよいですか?

HashFunction を変更する必要がある場合は問題ありません。

サンプルデータ

2015-05-21T05:55:43.517

0 投票する

1 に答える

1016 参照

pandas - NaN 値を含むデータフレームを使用した Python Pandas のランダム射影

data実際の値といくつかの NaN 値を含むデータフレームがあります。特にクラスを使用して、次元を25コンポーネントに減らすために、ランダム射影を使用して局所性に敏感なハッシュを実行しようとしていますsklearn.random_projection.GaussianRandomProjection。ただし、実行すると:

tx = random_projection.GaussianRandomProjection(n_components = 25) data25 = tx.fit_transform(data)

私は得るInput contains NaN, infinity or a value too large for dtype('float64')。これに対する回避策はありますか？すべての NaN 値を、データセットに存在しない値 (-1 など) に変更しようとしました。この場合、私の出力はどの程度有効でしょうか? 私は局所性に敏感なハッシュ/ランダム予測の理論の背後にある専門家ではないので、洞察も役に立ちます。ありがとう。

pandas scikit-learn projection dimensionality-reduction locality-sensitive-hash

2015-06-17T13:15:50.710

0 投票する

2 に答える

236 参照

python - カーブフィッティングを使用してデータの次元を削減する

私は機械学習の初心者で、scikit-learn を使用したことがありません。私はプロジェクトに取り組んでいます。プロジェクトの一環として、機械学習アルゴリズムをトレーニングして、いくつかの観察結果を個別のクラスに分類する必要があります。センサーからの観測を処理して、いくつかのデータを生成しました。しかし、処理されたデータの問題は、それが異なる観測に対して異なる長さのベクトルであることです。

ここに画像の説明を入力

この画像はデータの一部を示しています。緑の線はガウスフィルターを適用した後の生データで、赤の線はデータへの 16 度の多項式適合を示しています。1 行目は 3 つのピークを持つデータで構成され、2 行目は 4 つのピークを持つデータを含み、3 行目は 5 つのピークを持つデータを含みます。データを別々のクラスに分類できるようにしたい。

現在、多項式の係数を特徴ベクトルとして使用する予定です。最初の行は問題ありませんが、ピークの数が多い場合、多項式の適合が不十分になり、適切な分類につながらない可能性があります。高次多項式を使用してみましたが、ピーク数が少ない場合に誤動作が発生します。これはいくつかのクラスのサブセットにすぎないため、ピークの数をカウントするだけでは分類に使用できません。分類は、観察されたピークの相対的なサイズと分離にも依存しますが、この情報は多項式の適合ではあまり明確ではありませんピーク数が多い。

あるのか知りたい

データを分類するための特徴ベクトルを生成するのに役立つ多項式を当てはめようとする代わりに、他の方法があります。
Pythonで高次元のデータを可視化する方法

編集：

私は現在、多項式の代わりにスプラインを使用してデータscipy.interpolate.UnivariateSplineに適合させており、はるかに優れた適合を生成しています。ノットの位置とスプラインの係数を使用できるようになりました。しかし、これらのベクトルの長さは一定ではなく、同じ観測が 2 回繰り返されても異なります。誰かがそれを一定の長さのベクトルにマップする方法を提案できますか?

ここに画像の説明を入力