問題タブ [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
image-processing - 画像の特徴とは何かについて混乱している
ウィキペディアで画像の特徴について読んだことがありますが、それらが正確に何であるかについてまだ混乱しています。
用語は、私の混乱を解消できないような方法で説明されています.
1. They represent a Class (edge is a feature and boundry is another)
2. They represent a instance of a Class(all the edges detected will be a feature)
オブジェクトのすべての角を検出し、それらをarray
sayに入れるとしますA
。
機能を 1 つだけ取得しましたか、それともfeatures=len(A)
.
matlab - 2 つの特徴選択アルゴリズムの結果が一致しません
私は、サンプル サイズが 30 で特徴サイズが 80 である現実世界の問題に対して、2 つの特徴選択アルゴリズムに取り組んでいます。最初のアルゴリズムは、SVM 分類器を使用したラッパー フォワード特徴選択であり、2 つ目は、ピアソン積率相関を使用したフィルター特徴選択アルゴリズムです。係数とスピアマンの順位相関係数。これら 2 つのアルゴリズムによって選択された機能はまったく重複していないことがわかります。それは合理的ですか?実装で間違いを犯したということですか?ありがとうございました。参考までに、Libsvm + matlab を使用しています。
machine-learning - 回帰のスコアリング関数としてのカイ二乗
これは、http://scikit-learn.org/0.9/modules/feature_selection.htmlに記載されています。 「分類の問題で回帰スコア関数を使用しないように注意してください。」
回帰問題に最適な機能を見つけようとしており、スコアリング関数として f_regression を使用しています。しかし、それは非常にメモリを消費し、私の 8GB マシンがハングし、最終的にメモリ エラーが発生します。
同じ問題のスコア関数として Chi2 を使用しましたが、非常に高速に動作します。警告の逆が真かどうか知りたいですか? そうでない場合、回帰問題のスコアリング関数としてChi2を使用できますか?
r - R LiblineaR の重みはクラス ラベルで変更されない
大規模なデータセットに効率的な R の LiblineaR ライブラリを使用したいと考えています。(機能選択のために重量にl1-normを使用したいのですが、この質問には関係ありません)。私が観察したのは、クラス ラベルが変更されても、重みは変更されないということです。以下に例を示します。
したがって、ラベルを反転した後でも、重みは同じままです。これは機能の選択に問題があります。
これが事実である理由はありますか?
ライブラリ e1071 の svm が使用されている場合、(カスタム関数を使用して計算された) 主な重みは期待どおりに反転します。
更新: liblinearの c++ 実装で同じ例を確認したところ、結果の重みは期待どおりに符号を反転させました。
machine-learning - 特徴の選択と削減の両方を適用する
機械学習を含む研究をエミュレートしようとしていました。研究者は、分類からガウス分類器を使用する前に、特徴選択と特徴削減の両方を使用しました。
私の質問は次のとおりです。3 つのクラスがあるとします。合計 (たとえば) 10 個の機能から、各クラスの上位 3 つの機能 (たとえば) を選択します。選択された機能は、たとえば次のとおりです。
主成分分析または線形判別分析は両方とも完全なデータセットまたはすべてのクラスが同じ機能を持つ少なくともデータセットで機能するため、そのようなセットで機能削減を実行してからトレーニングを実行するにはどうすればよいですか?
論文へのリンクは次のとおりです。Speaker Dependent Audio Visual Emotion Recognition
以下は論文からの抜粋です。
基準関数として Bhattacharyya 距離を使用する Plus l-Take Away r アルゴリズムを使用して、上位 40 の視覚的特徴が選択されました。次に、PCA と LDA が選択された機能セットに適用され、最終的に単一コンポーネントのガウス分類器が分類に使用されました。
r - キャレットのrfeに相当するwekaは何ですか?
私は weka を使用しており、データセットで属性の選択を実行する必要があります。以前の同僚は、R のキャレット パッケージの rfe を使用してこれを行ったことがあります。weka の rfe と同等の機能は何ですか? 私は統計学者ではないので、この質問は奇妙に聞こえるかもしれませんが、助けていただければ幸いです。
machine-learning - 混合特徴による分類のためのベクトル距離の計算
さまざまな分類アルゴリズムの有効性を比較するプロジェクトを行っていますが、イライラする点で立ち往生しています。データは次の場所にあります: http://archive.ics.uci.edu/ml/datasets/Adult分類の問題は、国勢調査のデータに基づいて年収が 5 万を超えるかどうかです。
2 つのエントリの例は次のとおりです。
45歳、私立、98092、高卒、9歳、既婚、社会人配偶者、営業、夫、白人、男性、0、0、60、アメリカ合衆国、<=50K
50歳、非営利の自営業者、386397歳、学士号、13歳、既婚者、営業職、夫、白人、男性、0歳、0歳、60歳、アメリカ合衆国、<=50K
ユークリッド距離を使用してベクトル間の差を計算することには慣れていますが、連続属性と離散属性を組み合わせて使用する方法がわかりません。意味のある方法で 2 つのベクトルの違いを表す効果的な方法はありますか? 3 番目の属性のような大きな値 (要因に基づいてデータ セットを抽出した人々によって計算された重みであり、同様の重みは同様の属性を持つ必要があります) とその違いが意味を維持できるかについて頭を悩ませています。男性や女性などの個別の特徴から、方法を正しく理解していれば、ユークリッド距離は 1 にすぎません。一部のカテゴリは削除できると確信していますが、分類に大きく影響するものは削除したくありません。私'
machine-learning - vowpal wabbit の機能
すべての名前空間のサブセットから機能の組み合わせ (二次および三次) を選択する必要があります。単一の機能は避けたい。例:
-q m
名前空間「m」との組み合わせであるすべての機能を選択したい(VWのコマンドラインに従って、オプションを使用します:)。重要なのは、、、、などt_20
の単一の機能をすべて避けたいことです。m_18
o_15
params を使用--ignore
すると、組み合わせも削除されますが、これは望ましくありません。
ソースコードでは、組み合わせが行われる前に名前空間が削除されるのを無視しているようです。必要に応じて、VW のソース コードを変更します。