問題タブ [feature-selection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
41 参照

decision-tree - ディシジョン ツリー モデルをトレーニングするために、ベクトルで表される属性を処理するより良い方法は何ですか?

デシジョン ツリーを説明するほとんどの命令では、属性は単一の値で表され、これらの値は特徴ベクトルとして連結されます。通常、属性は互いに独立しているため、これは理にかなっています。

ただし、実際には、2D マップの GPS 座標 (x,y) など、ベクトルまたはマトリックスとしてしか表現できない属性もあります。x と y が相関関係にある場合 (非線形依存など)、それらを他の属性と単純に連結するのは適切な解決策ではありません。それらに対処するためのより良いテクニックがあるのだろうか?

ありがとう

0 投票する
1 に答える
2464 参照

r - 「randomForest」の「キャレット」での再帰的な機能の削除: 最初のフォレストに異なる ntree パラメーターを設定します

現在、再帰的特徴除去 (RFE) を使用して、非常に高次元のデータセット (p > 200k) のランダム フォレスト分類子を最適化しようとしています。caretパッケージには、これを行うための優れた実装があります ( rfe()関数)。ただし、RAM と CPU の使用量を最適化することも考えています。そのため、最初のフォレストをトレーニングするために異なる (より大きな) 数のツリーを設定し (機能の除去なしで)、その重要性を使用して構築する機会があるかどうか疑問に思います。残りのもの (RFE を使用) は、たとえば 10 倍または 5 倍の交差検証で 500 本の木を使用します。このオプションはvarSelRFで利用できることを知っています..しかし、キャレットはどうですか? マニュアルでこれに関するものを見つけることができませんでした。

0 投票する
2 に答える
425 参照

machine-learning - 特徴選択のためのフィードフォワード ラッパー メソッドとは何ですか?

学校のプロジェクトでは、UCI リポジトリからデータセットを選択し、「フィード フォワード ラッパー」機能選択で処理した後、KNN でデータを分類する必要があります。「フィードフォワードラッパー」をグーグルで検索しても何も得られません...誰かが私にそれが何であるかを説明できますか? さらに良いことに、この課題を完了するための手順を教えてください。「データ型」「属性の種類」「属性の数」はどのようなデータを選べばよいですか?

ベスト、ファティ

0 投票する
3 に答える
4111 参照

feature-selection - 相互情報量とカイ 2 乗の関係

次のコードを使用して、感情分析で特徴を選択するための相互情報量とカイ 2 乗値を計算しました。

ここで、N11、N​​01、N10、および N00 は、データ セット内の 2 つの特徴の観測頻度です。

注:特定の機能とクラス間の相互情報ではなく、2つの機能間の相互情報とカイ二乗値を計算しようとしています。私はこれを行っているので、2 つの機能が何らかの形で関連しているかどうかがわかります。

私が使用したカイ二乗式は次のとおりです。

E00、E01、E10、E11 は予想される周波数です。

相互情報の定義によると、値が小さいということは、一方の機能が他方の機能に関する情報を提供しないことを意味し、カイ 2 乗の定義により、カイ 2 乗の値が小さいということは、2 つの機能が独立していなければならないことを意味します。

しかし、特定の 2 つの機能については、相互情報スコアが 0.00416 で、カイ 2 乗値が 4373.9 でした。相互情報量スコアは機能が密接に関連していないことを示していますが、カイ二乗値はそれらが独立していないことを示すのに十分高いように見えるため、これは私には意味がありません. 私の解釈が間違っていると思います

観測された周波数について得た値は次のとおりです。

0 投票する
2 に答える
893 参照

nlp - ドキュメント分類のための最良の特徴選択アルゴリズム

私は文書分類プロジェクトに取り組んでいます。私は tf-idf と重心アルゴリズムを使用しています。しかし、そのアルゴリズムを使用するには、辞書が必要です。辞書作成のための情報取得を試みましたが、十分ではないと思います。情報獲得よりも優れた特徴選択アルゴリズムについて何か提案はありますか?

0 投票する
3 に答える
1825 参照

machine-learning - 特徴選択方法はどのように評価できますか?

こんにちは、

特定のデータセット (テキスト データ) に最適な特徴選択方法を選択するにはどうすればよいですか?

たとえば Weka には、いくつかの属性選択方法 (CfsSubsetEval、ChiSquaredAttributeEval など) と、いくつかの検索方法 (bestfirst、greedy、ranker など) があります。

私の質問:特定のデータセットに最適な属性選択方法と検索方法を知るにはどうすればよいですか?!

私の推測:特徴選択フィルターを適用した後、クロス検証を使用してデータセットをテストする必要がありますか? たとえば、10 個の属性選択方法と 10 個の検索方法がある場合、100 回の相互検証テストを実行してから、最も精度の高い構成を選択する必要があります!!!!!!!! ここでは、1 つの分類器のみに対してテストしていると想定しています。では、2 つの分類子 (SMO と J48) がある場合、200 のクロス検証テストを実行する必要がありますか?!

何か誤解していたら訂正してください...

0 投票する
2 に答える
2528 参照

machine-learning - 機能を選択して Twitter の質問を「役に立つ」と特定する

正規表現を使用して、Twitter のストリームから一連の質問を収集し、質問の種類 ( who、what、when、whereなど) で始まり、疑問符で終わるテキストを含むツイートを選び出します。

そのため、データベースには、「誰が気にするの?」、「これは何ですか?」などの役に立たない質問がいくつか返ってきます。「バスケットボールの試合はどのくらいの頻度で行われますか?」、「ホッキョクグマの体重はどれくらいですか?」等

ただし、有用な質問にのみ関心があります。

約 3000 の質問がありますが、そのうちの ~2000 は役に立たず、~1000 は有用であり、手動でラベルを付けました。有用な質問を手動で選択する必要がないように、単純なベイズ分類器 (NLTK に付属) を使用して質問を自動的に分類しようとしています。

手始めに、質問の最初の 3 語を特徴として選んでみましたが、あまり役に立ちません。分類器は、100 の質問のうち、有用な質問として正しいと予測したのは 10% ~ 15% 程度でした。また、有用ではないと予測された質問から有用な質問を選択することもできませんでした。

質問の長さを含め、すべての単語を含めるなどの他の機能を試しましたが、結果は大幅に変わりませんでした.

機能を選択する方法や続行する方法について何か提案はありますか?

ありがとう。

0 投票する
1 に答える
99 参照

php - mysql に autoupdate のようなものがあるかどうか

データベース テーブル スキーマ。

データベースにアクセスすることなく、mysql でデータが自動的に更新されるたびにカウントを更新したいと考えています。

つまり、その行を選択して古い値を取得し、それを1つ増やすことができることを知っていますが、私の懸念は、mysqlがそのようなことを処理する方法があるかどうかです。

コードは試していません。専門家がそれについて何か知っているかどうか知りたかっただけです。私は締め切りに間に合っているので、長いアプローチを使用したくありません.mysqlがすでに私を助けることができるものを持っているなら、それはクールだと思いました.

ありがとう。

0 投票する
1 に答える
9350 参照

machine-learning - TF および TF*IDF ベクトルで Chi-2 特徴選択を実行する

いくつかのテキスト分類タスクで Chi-2 特徴選択を試しています。Chi-2 テストは依存関係 B/T の 2 つのカテゴリ変数をチェックすることを理解しています。したがって、バイナリ BOW ベクトル表現を使用したバイナリ テキスト分類問題に対して Chi-2 特徴選択を実行すると、各 (feature,class) に対する各 Chi-2 テストが行​​われます。ペアは、自由度 1 の非常に単純な Chi-2 テストになります。

ドキュメントからの引用: http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2

このスコアを使用して、X からの χ² (カイ 2 乗) 統計の値が最も高い n_features 特徴を選択できます。この統計には、ブール値または度数 (ドキュメント分類の単語数など) が含まれている必要があります。

DF (単語数) ベクトル表現で Chi-2 特徴選択も実行できるように思えます。私の最初の質問は次のとおりです。sklearn はどのように整数値の特徴をカテゴリカルに離散化しますか?

私の 2 番目の質問は最初の質問と似ています。ここのデモ コードから: http://scikit-learn.sourceforge.net/dev/auto_examples/document_classification_20newsgroups.html

TF*IDF ベクトル表現で Chi-2 特徴選択も実行できるように思えます。sklearn は実数値の特徴に対して Chi-2 特徴選択をどのように実行しますか?

親切なアドバイスをありがとうございました!