2

こんにちは、

特定のデータセット (テキスト データ) に最適な特徴選択方法を選択するにはどうすればよいですか?

たとえば Weka には、いくつかの属性選択方法 (CfsSubsetEval、ChiSquaredAttributeEval など) と、いくつかの検索方法 (bestfirst、greedy、ranker など) があります。

私の質問:特定のデータセットに最適な属性選択方法と検索方法を知るにはどうすればよいですか?!

私の推測:特徴選択フィルターを適用した後、クロス検証を使用してデータセットをテストする必要がありますか? たとえば、10 個の属性選択方法と 10 個の検索方法がある場合、100 回の相互検証テストを実行してから、最も精度の高い構成を選択する必要があります!!!!!!!! ここでは、1 つの分類器のみに対してテストしていると想定しています。では、2 つの分類子 (SMO と J48) がある場合、200 のクロス検証テストを実行する必要がありますか?!

何か誤解していたら訂正してください...

4

3 に答える 3

4

情報取得または主成分分析を試して、どの機能が分類に最も追加されるか (情報取得)、または分散が最も高いか (PCA) を判断できます。

あなたが言及したテクニックを使用することもできます。しかし、あなたが何をするにしても、それがどれほど効果的であったかを評価する必要があります。

于 2013-01-08T22:34:45.047 に答える
1

フィルターやラッパーの方法など、さまざまな種類の機能選択があります。フィルター方法は、距離、相関、または相互情報に基づいて特徴を選択するための、分類器に依存しない手法です。FEASTツールとmRMRを確認することをお勧めします。

特定の分類子のパフォーマンスに基づくラッパー モデルに関しては、すべての検索方法を列挙する必要はありません。1 つの検索方法を修正し、投稿で提案されている比較を適用します。

于 2013-01-09T03:47:31.527 に答える
1

データセット全体でモデルを構築してから、特徴選択 (FS) を実行する必要があります。複数のモデルがある場合は、RMSE または MSE を参照して機能の重要度をスケーリングできます。R に精通している場合は、Google で「ランダム フォレスト AND 機能選択」を検索してみてください。

于 2013-01-09T10:01:24.170 に答える