-1

私は、遺伝子発現データを使用した結腸直腸癌ステージのマルチクラス分類に関するプロジェクトに取り組んでいます。私のデータセットには 11 個のバイオマーカーが含まれています。分類の結果は約 40% です。KNN、SVM、ニューラル ネットワークを使用した分類用のさまざまなモデルを試しました。また、アンサンブル機械学習のアルゴリズムも試しました。結果を改善するためにデータセットで何ができるか知っている人はいますか?

4

1 に答える 1

0

次に何をすべきかを決定するには、いくつかの指標が必要です。

  1. 人間の専門家のチームはデータをどの程度分類できるでしょうか?
  2. トレーニング データセットのモデル精度は?
  3. テスト データセットでのモデルの精度は?

トレーニングの精度が人間の専門家よりもはるかに悪い場合は、トレーニング結果が人間の専門家に近づくか超えるまで、モデルの複雑さを増やす必要があります。これを行うには、入力フィーチャの数を増やすか、別の機械学習モデルを選択するか、NN のレイヤー数を増やします。トレーニングの精度が低い場合は、テストの精度を改善するために時間を費やす前に、まずこれを改善する必要があります。

トレーニングの精度は良好であるが、テストの精度がトレーニングの精度よりもはるかに悪い場合は、おそらく過剰適合しています。追加のトレーニング データを取得または作成し、正則化を使用します。

于 2017-05-15T12:44:26.197 に答える