問題タブ [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scikit-learn - 分類のための重要な特徴を見つける
ロジスティック回帰モデルを使用していくつかの EEG データを分類しようとしています (これは私のデータの最良の分類を与えるようです)。私が持っているデータはマルチチャンネル EEG セットアップからのものであるため、本質的には 63 x 116 x 50 のマトリックスがあります (つまり、チャンネル x 時点 x 試行回数 (50 の試行タイプが 2 つあります))。試行ごとに 1 つの長いベクトル。
私がやりたいのは、分類の後で、どの機能が試験の分類に最も役立つかを確認することです。どうすればそれを行うことができ、これらの機能の重要性をテストすることは可能ですか? たとえば、分類は主に N 機能によって駆動され、これらは機能 x から z であると言えます。したがって、たとえば、時点 90 ~ 95 のチャネル 10 が分類にとって重要または重要であると言えます。
これは可能ですか、それとも間違った質問をしていますか?
コメントや論文の参照は大歓迎です。
python - 文字列と数値の両方を含むデータセットの特徴選択?
こんにちは、文字列と数値の両方を持つ大きなデータセットがあります。
ユーザー名(str)、ハンドセット(str)、リクエスト数(int)、ダウンロード数(int)、.......
私は約200のそのようなコラムを持っています。
機能選択中に文字列と整数の両方を処理できる方法/アルゴリズムはありますか? または、この問題にどのようにアプローチする必要がありますか。
ありがとう
machine-learning - PCA (主成分分析) と特徴選択の違い
機械学習における主成分分析 (PCA) と特徴選択の違いは何ですか? PCA は機能選択の手段ですか?
image - 2 つの特徴を組み合わせる方法 (2 つの最小距離分類器)
こんにちは皆さん、ここに私の最初の投稿があります。
事前のトレーニングなしで、画像を介してオブジェクトを追跡することに取り組んでいます。領域の色 (Lab 空間の ab チャネル) と HOG の 2 つの機能を使用します。私の最初の実験では、min を使用することがわかりました。HOG 機能のみを備えた距離分類器には、偽陽性の FP が低く、FN が高いという利点があります。一方、最小を使用します。色のみの距離分類子は、TP を増加させ、FN の結果を減少させますが、FP を増加させるという代償を伴います。
私の質問は、2 つの分類子をどのように組み合わせるかです。教師なしでそれを行うための標準アルゴリズムを知りたいです。
2 つの機能を (正規化後に) 1 つの機能に結合しようとしましたが、HOG が結果を支配しています。組み合わせた機能に重みを付けたとしても、結果は 2 つのどちらよりも悪いものです。
私がこれまでに達成した良い結果は、最初に色を実行して可能性を高め、次に HOG を実行する (HOG のみで使用されるしきい値よりも少し高い) ことにより、2 つの分類器を (カスケード) することです。トピックをグーグルで検索しましたが、分類に関する十分な知識がなく、標準的な方法を見つけることができません。
手伝ってくれてありがとう
scikit-learn - Feature selection for multilabel classification (scikit-learn)
I'm trying to do a feature selection by chi-square method in scikit-learn (sklearn.feature_selection.SelectKBest). When I'm trying to apply this to a multilabel problem, I get this warning:
UserWarning: Duplicate scores. Result may depend on feature ordering.There are probably duplicate features, or you used a classification score for a regression task.
warn("Duplicate scores. Result may depend on feature ordering."
Why is it appearning and how to properly apply feature selection is this case?
matlab - SVM LibSVM 予測時に機能 1、3、5 を無視
この質問は、LibSVMまたはSVM全般に関するものです。同じ SVM モデルで異なる長さの特徴ベクトルを分類することは可能でしょうか。
次の特徴ベクトルの約 1000 インスタンスを使用して SVM をトレーニングするとします: [feature1 feature2 feature3 feature4 feature5]
ここで、同じ長さ 5 のテスト ベクトルを予測したいと考えています。受け取る確率が低すぎる場合は、列 2 ~ 5 を含むテスト ベクトルの最初のサブセットをチェックしたいと考えています。だから私は1つの機能を却下したい。
私の質問は次のとおりです。予測のために機能 2 ~ 5 のみをチェックするように SVM に指示することは可能ですか (たとえば、重みを使用)、それとも異なる SVM モデルをトレーニングする必要がありますか。1 つは 5 つの機能用、もう 1 つは 4 つの機能用など...?
前もって感謝します...
マーカス
java - ニューラル ネットワークによるテキスト分類
ニューラル ネットワークを使用してテキスト メッセージを分類する方法を教えてください。例はありますか?テキスト メッセージを前処理してニューラル ネットワークをトレーニングするにはどうすればよいですか?
ありがとう
r - 数値変数とカテゴリ変数を含むデータセットでの R を使用した分類
私は非常に大きなデータセットに取り組んでいます.(csv)
データセットは、数値列とカテゴリ列の両方で構成されています。
列の1つは私の「ターゲット列」です。つまり、他の列を使用して、(3つの可能な既知の値のうち)どの値が「ターゲット列」にある可能性があるかを判断したいということです。最後に、私の分類と実際のデータを確認してください。
私の質問:
Rを使用しています。
最良の分類を与える機能のサブセットを選択する方法を見つけようとしています。すべてのサブセットを調べることは不可能です。
誰かがアルゴリズムを知っているか、Rでそれを行う方法を考えることができますか?