0

血液細胞画像の抗体の認識機能を構築しています。これは、libsvm に基づいています。プロトタイプは、トレーニング済みクラスの 1 つに属するインスタンスを認識する場合にうまく機能します。しかし、血液細胞を含まない画像 (たとえば、顕微鏡のオフセット/フォーカスが不適切) を与えると、モデルによって既知のクラスの 1 つが示唆されます。

最初にクラス「Unknown」を実装することを検討しましたが、すべてのノイズ画像でトレーニングするとモデルのパフォーマンスが低下するのではないかと心配しています。

したがって、私の考えは、認識されるインスタンスの 1 つまたは複数の機能が値の範囲外であるかどうかを確認し、それを破棄することです。

それは良い方法ですか?はいの場合、カットオフはどのように選択する必要がありますか (たとえば、標準偏差に関して)?

どうもありがとうございました!

4

1 に答える 1

1

「可能性のある非クラス サンプル」の問題では、最も明白な解決策は、次の 2 つの方法のいずれかで 1 クラスの SVM (外れ値検出アルゴリズム) を作成することです。

  • 2 つの 1 クラス SVM (クラスごとに 1 つ) をトレーニングし、両方のモデルによって「外れ値」としてマークされたサンプルを破棄します。
  • データセット全体 (両方のクラスのインスタンス) で 1 つの 1 クラス SVM をトレーニングし、外れ値としてマークされたデータを破棄します

「範囲外チェック」を使用した推奨されるアプローチは、obvios のしきい値がある限り適切です。ここで、何が最良の選択であるかを尋ねているように、それは良い方法ではないことを意味します。(専門家として)自分でそれを理解できない場合は、以前に提案されたように外れ値検出方法をトレーニングする方がはるかに優れた安全なオプションのように思われます。これは実際には同じことを行いますが、自動的な方法で( 「悪い画像」でトレーニングせずに「悪いデータ」を破棄します)。

于 2013-10-15T15:06:48.763 に答える