連続出力値が同じ範囲にある 4 つのクラスの問題があるとします。(10 ~ 50 以内と仮定します)。すべてのクラス データ (トレーニング データ) を 1 つの .csv ファイル (WEKA 用) に入れ、各トレーニング サンプルの連続出力を指定すると、回帰モデルは出力が(継続) 得られるのはどのクラスですか??? 多クラス入力データの同時定量化を行いたい
1 に答える
私はまだあなたの問題が何であるかを完全に確信していますが、4つのデータセットがあり、それぞれに回帰の問題があり、累積データセットで回帰を実行し、回帰を回復するだけでなくモデルを期待していると仮定します値だけでなく、「ソース」でもあります。
- 単純な実装 (データを連結するだけ) では、データのソースに関する情報が失われるため、不可能です。
- 出力値を増やすことができるので、単に "Y" (回帰値) の代わりに、どのセットからのものかを示す別の値も追加します。次に例を示します。
.
Set1:
x11 -> y11
Set2:
x21 -> y21
Set3:
x31 -> y31
Set4:
x41 -> y41
あなたはそれをに変換します
Big set:
x11 -> (y11,1)
x21 -> (y21,2)
x31 -> (y31,3)
x41 -> (y41,4)
または単項コーディングで
Big set:
x11 -> (y11,1,0,0,0)
x21 -> (y21,0,1,0,0)
x31 -> (y31,0,0,1,0)
x41 -> (y41,0,0,0,1)
このように、トレーニングが完了すると、回帰値だけでなく、ソース データセット (「クラス」と呼ばれます) も取得できます。
もちろん、最も簡単な解決策は、回帰用と分類用の 2 つの別個のモデルを構築することです。このようにして、これらのタスク用に設計されたモデルを使用できます (一方、1 つのモデルを使用するには、少なくとも 1 つの部分に対して最適ではないソリューションを選択する必要があります)。 )。
Big set regression:
x11 -> y11
x21 -> y21
x31 -> y31
x41 -> y41
Big set classification:
x11 -> 1
x21 -> 2
x31 -> 3
x41 -> 4
小さなセットに取り組むのではなく、そのような「大きなセット」を作成することが有益かどうかという質問は、次の質問に答えるのと同じです。
回帰される値が、各サブ問題で非常に類似した予測変数を持っているかどうか
したがって、合理的な正当性があり、各サブ問題でこの機能を同様の方法で導出できる場合 (データ分割に依存しないいくつかの物理現象に対応するため)、はい、それは良いアプローチです。このような手順は、トレーニング セットが非常に限られている場合にのみ実行する必要がありますが、十分なデータがある場合は、モデルのバイアスを防ぐために、各サブ問題が異なる特性を持っていると想定することをお勧めします。最後に、「究極の」答えは「両方の方法をチェックし、どちらがより適切に動作するかを評価する」(たとえば、相互検証を使用して) です。これにより、この値がサブセットで本当に独立しているかどうかについての洞察も得られます。