3

通常の機械学習の問題では、多くの機能が得られます(たとえば、画像認識機能を作成している場合)。そのため、多くの機能がある場合、データを視覚化できません(グラフをプロットできません)。グラフをプロットせずに、その問題にどの程度の仮説関数を使用する必要があるかを判断する方法はありますか?使用するのに最適な仮説関数を決定する方法は?例えば:-

2つの入力x(1)、x(2)がある場合。

仮説関数として(w0)+ x(1)* w(1)+ x(2)* w(2)を選択するかどうか

w(0)+ x(1)* w(1)+ x(2)* w(2)+ x(1)* x(2)* w(3)+(x(1)^ 2)* w (4)+(x(2)^ 2)* w(5)

仮説関数として:ここで、w(0)、w(1)、w(2)、w(3)......は重みです。

4

1 に答える 1

7

適用する最初の主要なステップは、特徴選択または特徴抽出(次元削減)です。これは、相関、相互情報量などの特定の関連性メトリックをmRmRとして使用して適用できる前処理ステップです。また、数値線形代数の領域や、いくつかの仮定に基づいて空間を記述する特徴を見つけるための主成分分析などの統計によって刺激される他の方法があります。

あなたの質問は、モデル選択として知られる機械学習の分野における主要な関心事に関連しています。どの次数を使用するかを知る唯一の方法は、次の点に注意して、さまざまな次数(d = 1、d = 2、...)のモデルを試すことです。

1-過剰適合:変数の範囲(この場合はW)を制限することにより、過剰適合を回避する必要があります。このソリューションは正則化として知られています。また、ANNの場合のように、分類器を長時間トレーニングしないようにしてください。

2-トレーニング、検証、テストのセットを準備します。トレーニングはモデルのトレーニング用であり、検証はパラメーターの調整用であり、テストは異なるモデルの比較用です。

3-パフォーマンス評価メトリックの適切な選択。トレーニングデータのバランスが取れていない場合(つまり、ターゲット変数の値またはクラス変数ごとにほぼ同じ数のサンプルが割り当てられている場合)、精度は示されません。この場合、感度、特異性、またはマシュー相関を考慮する必要があります。

実験が鍵であり、実際にあなたはリソースによって制限されています。それにもかかわらず、実験の適切な設計はあなたの目的に役立つ可能性があります。

于 2012-10-11T16:09:11.457 に答える