こんにちは、
特定のデータセット (テキスト データ) に最適な特徴選択方法を選択するにはどうすればよいですか?
たとえば Weka には、いくつかの属性選択方法 (CfsSubsetEval、ChiSquaredAttributeEval など) と、いくつかの検索方法 (bestfirst、greedy、ranker など) があります。
私の質問:特定のデータセットに最適な属性選択方法と検索方法を知るにはどうすればよいですか?!
私の推測:特徴選択フィルターを適用した後、クロス検証を使用してデータセットをテストする必要がありますか? たとえば、10 個の属性選択方法と 10 個の検索方法がある場合、100 回の相互検証テストを実行してから、最も精度の高い構成を選択する必要があります!!!!!!!! ここでは、1 つの分類器のみに対してテストしていると想定しています。では、2 つの分類子 (SMO と J48) がある場合、200 のクロス検証テストを実行する必要がありますか?!
何か誤解していたら訂正してください...