1

私は研究に取り組んでおり、テストデータの一定の部分を分類することを拒否する方法を考え出したいと思います (たとえば、20%、5 つの分類のうちの 1 つがアルゴリズムによって「わからない」と答えることができます)。アイデアは、どの分類が偽である可能性が最も高いかを効果的に選択し、それらへの回答を拒否できるアルゴリズムを持つことです (全体的な精度を向上させるため)。

これを達成するための一般的な機械学習方法(使用される分類器に依存しない)があるのだろうか?

どんな答えでも役に立ちます、ありがとう。

4

4 に答える 4

1

単に「分類子の取得」をグーグルで検索してください。

于 2012-07-02T21:09:30.360 に答える
1

ロジスティック回帰分類器は、例が正または負のカテゴリに属する​​確率を出力します。この場合、例を「不明」とマークするためのしきい値を設定すると機能します。たとえば、正または負のいずれかの確率が.6未満であるものはすべて、不明としてマークされる可能性があります。

別のポスターが示唆しているように、別のアプローチは、問題をランキング問題として扱うことです。線形分類器(SVMやロジスティック回帰など)は、分離超平面からの例の距離を出力します。この距離の絶対値を使用して例をランク付けし、ランクが最も低い(分離超平面に最も近い)テスト例の20%を不明として分類できます。

于 2012-06-28T23:22:50.750 に答える
1

ニューラルネットワークに拒否出力と呼ばれる特別な出力を追加できることを知っています。詳細については、こちらをご覧ください。

ただし、このような出力は大きなデータセットの場合にのみ意味があると思います。小さなデータセットでは、外れ値と思われる特定の個人が、より大きなデータセットのクラスの一部にならないかどうかはわかりません。

于 2012-06-28T21:48:49.043 に答える
0

二項分類について話していると思いますか?

また、「どの分類が偽である可能性が最も高く、回答を拒否するか」と言うとき、分類子が決定できないグレーゾーンを定義したいという意味だと思います。1 つではなく 2 つの決定しきい値を使用できます。1 つを超えるとサンプルが陽性であると判断され、もう 1 つが下回るとサンプルが陰性であると判断されます。間に残っているものはすべて「不明」です。

「どのサンプルがおそらく偽であるか」という意味であれば、その場合、分類タスクというよりはランキング タスクのように聞こえます。

于 2012-06-28T21:47:30.217 に答える