問題タブ [feature-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
210 参照

machine-learning - シミュレーテッド アニーリングによる SVM の機能選択

シミュレーテッド アニーリング (SA) は、多くの最適化問題でよく知られています。ここで SA の詳細を読むことができます http://en.wikipedia.org/wiki/Simulated_annealing

サポート ベクター マシンの分類に使用する特徴選択の SA に興味があります。つまり、入力データからサブセットを定義して、分類エラーの少ない SVM の特徴ベクトルとして使用する必要があります。したがって、各入力データのサブセットを状態 s として、そのエネルギー E(s) を分類誤差のコスト関数として理解できます。

私の質問は、各ベクトルの初期ラベル セットを選択する方法ですか? 最初は任意でいいですか?

各状態のコスト関数の式は何ですか (一般に、非線形カーネル SVM の場合)? そして、次の状態を定義する方法 (次のサブセットを選択する) は?

0 投票する
1 に答える
345 参照

genetic-algorithm - ウェーブレット パケット分解、特徴選択、および SVM

ウェーブレット パケット分解、特徴選択、SVM を使用した障害検出モデルについて詳しく知りたいです。ここでいくつかの関連論文を読むことができます:

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4547208

https://mospace.umsystem.edu/xmlui/bitstream/handle/10355/4845/research.pdf?sequence=3

私の質問は、最終的な SVM 分類子の機能としてウェーブレット パケット ノード (計算された rms 値を含む) を選択する必要があるという「機能の選択」ステップにあります。SVM では、各ベクトルのラベル (+1、-1) も知る必要がありますが、特徴選択プロセス中にこのラベルを取得するにはどうすればよいでしょうか。上記の論文のように、10倍SVMを使用した遺伝的アルゴリズム(GA)についてはあまり理解していません。誰でもこれについて説明できますか?

0 投票する
1 に答える
7992 参照

r - Does R randomForest's rfcv method actually say which features it selected, or not?

I would like to use rfcv to cull the unimportant variables from a data set before creating a final random forest with more trees (please correct and inform me if that's not the way to use this function). For example,

In this case, if I understand the result correctly, it seems that we can remove three variables without negative side effects. However,

None of these slots tells me what those first three variables that can be harmlessly removed from the dataset actually were.

0 投票する
1 に答える
615 参照

machine-learning - 機械学習のためにさまざまな NLP 機能を組み合わせる方法は?

さまざまな NLP 機能を使用して KNN 学習をしようとしています。たとえば、bag-of-words とローカル POS タグを使用したいと考えています。

それとは別に、単一の機能で類似度を計算する方法についていくつかのアイデアがあります。カウントでコサイン類似度を使用したり (bag-of-words ベクトルの場合)、POS タグにハミング距離を使用したりします。

ただし、2つを組み合わせる方法がわかりません。この地域の人々は通常、どのようにこれを行っていますか? 誰でもそれを手伝ってもらえますか?

前もって感謝します。

0 投票する
3 に答える
9839 参照

matlab - Matlab: Kmeans は毎回異なる結果を与える

400x1000 マトリックスの matlab で kmeans を実行していますが、何らかの理由でアルゴリズムを実行するたびに異なる結果が得られます。以下はコード例です。

何らかの理由で、このコードを実行するたびに異なる結果が得られますか? 何か案は?

多重共線性の問題を特定するために使用しています。

助けてくれてありがとう!

0 投票する
2 に答える
32493 参照

python - TypeError: 要素が 1 つの整数配列のみをインデックスに変換できます

相互検証を使用して再帰的な機能選択を実行すると、次のエラーが発生します。

エラーを生成するコードは次のとおりです。

LogisticRegression 分類子のパラメーターに対しても GridSearch を実行する必要があることはわかっていますが、それがエラーの原因だとは思いません (またはそうでしょうか?)。

私は約 50 の機能をテストしていることに言及する必要がありますが、それらのほとんどすべてが分類されています (そのため、適切に変換するために DictVectorizer を使用しています)。

あなたが私に与えることができる助けや指導は大歓迎です。ありがとう!

編集

トレーニング データの例を次に示します。

0 投票する
1 に答える
2052 参照

python - 最初に行うこと:特徴選択またはモデルパラメータ設定?

これは、より「理論的な」質問です。scikit-learnパッケージを使用して、NLPタスクを実行しています。Sklearnは、特徴選択とモデルパラメーターの設定の両方を実行するための多くの方法を提供します。私は最初に何をすべきか疑問に思っています。

単変量特徴選択を使用する場合、最初に特徴選択を実行し、次に選択した特徴を使用して、推定器のパラメーターを調整する必要があることは明らかです。

しかし、再帰的な機能の削除を使用したい場合はどうなりますか?最初にすべての元の特徴を使用してグリッド検索でパラメーターを設定してから、特徴選択を実行する必要がありますか?または、最初に(Estimatorのデフォルトパラメーターを使用して)機能を選択してから、選択した機能を使用してパラメーターを設定する必要がありますか?

あなたが私に与えることができるどんな助けにも前もって感謝します。

編集

私はここで述べたのとほとんど同じ問題を抱えています。その時までに、それに対する解決策はありませんでした。それが今存在するかどうか誰かが知っていますか?

0 投票する
1 に答える
924 参照

r - キャレット内の rfe によって生成されたすべてのモデルにアクセスする

キャレット パッケージの関数を使用して、rfeロジスティック回帰モデルの機能選択を行っています。Rsquaredsizesを使用して最適なモデルを選択するために、5、10、15、20、および 25 を調べています (私の従属変数は 0,1 です)。rfe最終的に選択されたモデルを超えて、関数によって生成された他のモデルにアクセスする方法はありますか?

0 投票する
1 に答える
1201 参照

r - randomForest パッケージの特徴選択のために rfcv() 関数を並列化します

Rパッケージ'randomForest'に実装されているrfcv()関数を並列化する方法を誰かが知っているのだろうか。質問が非常に基本的に聞こえる場合は申し訳ありませんが、「foreach」を使用してこれを実行しようとしましたが、結果はありませんでした。

0 投票する
1 に答える
1239 参照

python - sci-kit learn:SelectKBestを使用する際の対応するfeature-id値の特定

sci-kit learn(バージョン0.11とPythonバージョン2.7.3)を使用して、svmlight形式のバイナリ分類データセットから上位K個の機能を選択しています。

選択した機能の機能ID値を特定しようとしています。これは非常に簡単だと思いました-そしておそらくそうかもしれません!(feature-idとは、ここで説明するように、機能値の前の数値を意味します)

次のコードは、私がこれをどのように試みているかを正確に示しています。

明らかにassumed_to_be_the_feature_ids_of_the_top_k_features 、feature-id値に対応することはできません-(以下を参照)私の入力ファイルのfeature-id値は1から始まるためです。

さて、assumed_to_be_the_feature_ids_of_the_top_k_features実際には、値の昇順でソートされた機能ID値のリストインデックスに対応しているのではないかと思います。私の場合、インデックス0はfeature-id=1etcに対応します-コードがそれを教えてくれてfeature-id=1feature-id=3選択されたように。

ただし、誰かがこれを確認または拒否できれば幸いです。

前もって感謝します。

contrived_svmlight_train_file.txtの内容:

PS正しくフォーマットされていないことをお詫びします(ここで初めて)。これが読みやすく、理解しやすいことを願っています。