問題タブ [feature-selection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rランダムフォレストを使用して、個別のクラスを持たない属性を減らす方法は?
属性削減のためにランダムフォレストを使用したい。私のデータにある問題の1つは、離散クラスがないことです。連続のみです。これは、例が「通常」とどのように異なるかを示しています。このクラス属性は、ゼロから無限大までの一種の距離です。そのようなデータにランダムフォレストを使用する方法はありますか?
r - R でのグラム・シュミット直交化を使用した特徴選択
Gram-Schmidt直交化を使用した機能選択のアルゴリズムを含むRのパッケージはありますか?
machine-learning - 品詞 (POS) タグ テキスト分類のための特徴選択
Stanford POS tagger を使って POS タグ文を取得してもらいました。例えば:
/ DT島 / NN だった / VBD とても / RB 綺麗 / JJ . /. I/PRP 愛/VBP それ/PRP ./.
(xml形式も可)
この POS タグの文章から特徴選択を行い、機械学習手法を使用してテキスト分類用の特徴ベクトルに変換する方法を説明できる人はいますか。
statistics - 非常に小さなデータセットでクラスタリングを改善するために、特徴に重みを付けるにはどうすればよいですか?
私は、特徴空間 (1000 以上の次元) でいくつか (<50) の高次元ポイントを取り込み、標準の k クラスタリングを使用して再帰的に階層クラスタリングを実行するプログラムに取り組んでいます。
私の問題は、任意の 1 つの k クラスタリング パスで、高次元表現のさまざまな部分が冗長になることです。この問題は、特徴抽出、選択、または重み付けの傘下にあることを知っています。
一般に、特定の特徴抽出/選択/重み付けアルゴリズムを選択する際に考慮すべきことは何ですか? 具体的には、私の状況でデータをクラスタリングするための最良の方法はどのアルゴリズムでしょうか?
document-classification - 二項文書分類で最も差別的な用語をどのように見つけますか?
特徴選択を使用して、二項分類タスクに最も役立つドキュメント内の用語を見つけたいと考えています。
私は周りを見てきました:
これは、相互情報量とカイ二乗検定の指標について言及しています
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLAB にもいくつかの関数があります。
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
MATLAB での機能の選択
上記のうち、relieff と rankfeatures が有望に見えます。
データが正規分布に従っているかどうかわかりません。どのテクニックが最高のパフォーマンスを発揮するかについて何か考えはありますか? あなたが提案する新しい方法はありますか?焦点は、分類精度を高めることです。
ありがとうございました!
machine-learning - 遺伝的アルゴリズム: 特徴選択アルゴリズムの適合度関数
n個の観測があり、各観測がm属性のm値で構成されるデータセットnxmがあります。各観測には、観測結果も割り当てられています。m は大きく、私のタスクには大きすぎます。私は、ニューラル ネットワークを教えるためにこれらの属性のみを使用できるように、データセット全体を非常によく表す m 属性の最適かつ最小のサブセットを見つけようとしています。
これには遺伝的アルゴリズムを使用したいと考えています。問題はフィットネス機能です。生成されたモデル (属性のサブセット) が元のデータをどの程度反映しているかがわかります。そして、セット全体に対して特定の属性のサブセットを評価する方法がわかりません。もちろん、サブセットがどれだけ優れているかをチェックするために、ニューラル ネットワーク (後でこの選択されたデータを使用します) を使用できます。エラーが小さいほど、サブセットは優れています。しかし、私の場合、これにはかなりの時間がかかるため、このソリューションを使用したくありません。できればデータセットでのみ動作する他の方法を探しています。
私が考えたのは、サブセットS(遺伝的アルゴリズムによって発見された)を持ち、サブセットSの値のみが含まれるようにデータセットをトリミングし、このデータサーバー内のいくつの観測値がもはや区別できなくなった(同じ属性に対して同じ値を持つ)かを確認することでした。異なる結果値を持つ。数値が大きいほど、悪いサブセットです。しかし、これは計算量が多すぎるように思えます。
属性のサブセットがデータセット全体をどの程度うまく表しているかを評価する他の方法はありますか?
r - R: パーセンテージ従属変数を使用した重回帰の変数選択、深刻な共線性
モデルを単一のパーセンテージ (従属) 変数: スコアに適合させるために選択しようとしている 9 つの連続独立変数を含むデータセットがあります。
残念ながら、いくつかの変数の間に深刻な共線性があることはわかっています。
変数選択のために R で stepAIC 関数を使用してみましたが、奇妙なことに、その方法は変数が方程式にリストされている順序に敏感なようです...
これが私のRコードです(b / cはパーセンテージデータです。スコアにはロジット変換を使用しています):
何らかの理由で、式の先頭にリストされている変数が stepAIC 関数によって選択されることになり、結果は、たとえば Var9 を最初に (チルダに続いて) リストすることで操作できることがわかりました。
ここでモデルを適合させるより効果的な (そしてあまり議論の余地のない) 方法は何ですか? 私は実際に線形回帰の使用に固執しているわけではありません。私が望む唯一のことは、9 つの変数のどれが本当に Score 変数の変動を引き起こしているかを理解できるようにすることです。できれば、これは、これら 9 つの変数の共線性の可能性が高いことを考慮に入れる方法です。
難しい質問だとは存じますが、お時間を割いてご覧いただき、誠にありがとうございます...
最高、ジュリー
machine-learning - Scikits Learn: 線形カーネル SVM の機能の重み
テキスト分類の問題(感情分析)を扱っています。scikit-learn に「重み」(重要性の尺度として) を機能に追加するオプションがあるかどうかを知りたいです。ドキュメントを確認したところ、以下に定義されているSVC の属性「coefs」が見つかりました。
ただし、この属性は読み取り専用のようです。
machine-learning - 機械学習 - さまざまな重要性の特徴から離散的で連続的なソリューションを予測するのに最適なアプローチはどれですか?
最大 N 個の入力を取り、できるだけ頻繁に「正しい」答えを予測する単一の数値を計算する式を考え出す必要があります。各入力は 10 進数値または整数です。出力も 10 進数値です。
途方もない量のデータがあります (無限と考えてください)。いずれの場合も、すべての入力の値と出力の正しい値を取得しています。
特徴はすべて相互に関連しており (つまり、1 つが高い場合、別の特徴が低い可能性が高くなります)、回答との関連性が異なります。
「完全な」式はありませんが、統計的に有意な多くの場合に当てはまる式があるはずです。私が「最良の」ソリューションを持っていた場合、それは非線形で離散的である可能性があります。ただし、これは 1 回限りの計算です。
この種の機能を取得し、複雑でややランダムなデータを表す正確なモデルを作成するには、どの機械学習ソリューションが最適でしょうか?
編集:さらに調査を行うと、あらゆる種類の線形回帰が失敗するようです。ニューラル ネットワークは最良の選択のように見えますが、さまざまな範囲でさまざまな式を持つこの「離散」関数を予測できるかどうかはわかりません。
r - randomForest パッケージで機能選択を行う方法は?
I'm using randomForest in order to find out the most significant variables. I was expecting some output that defines the accuracy of the model and also ranks the variables based on their importance. But I am a bit confused now. I tried randomForest and then ran importance()
to extract the importance of variables.
But then I saw another command rfcv
(Random Forest Cross-Valdidation for feature selection), which should be the most appropriate for this purpose I suppose, but the question I have regarding this is: how to get the list of the most important variables? How to see the output after running it? Which command to use?
Another thing: What is the difference between randomForest
and predict.randomForest
?
I am not very familiar with randomforest and R therefore any help would be appreciated.
Thank you in advance!