異なるデータ マイニング アルゴリズム間で 3 種類の比較を実行する必要があります。
問題のある比較の唯一のタイプは、最も基本的なものであり、単一のデータセットに対する2つのアルゴリズムです-私にとって問題のあるものです。
私は、McNemarと5x2CVを選択の選択肢として言及し、リサンプリングされた t 検定は実行不可能であると述べているディートリッヒ (1998)の論文を知っています。分析は、サブサンプル、60:40 トレーニング: テスト分割、および総コストをパフォーマンス測定として使用するより大きなセットアップの一部を形成するため、これらを使用することはできません。
この場合、パフォーマンスを評価するために他にどのようなオプションがありますか?
符号検定: 2 つのアルゴリズムのそれぞれのパフォーマンスが優れているケースの数を数えるだけで、その後、二項分布を使用して p 値をチェックします。非常に弱いので問題あり。
Wilcoxon-signed-rank-test: t 検定のノンパラメトリックな代替手段として、私が最初に考えたものですが、この種の比較についてどの論文にも言及されていません。数回の繰り返し。それは実行不可能ですか?もしそうなら、それはなぜですか?