3

私はWekaを使用して、医学的問題の分類器を開発しています。このデータセットにはクラスの不均衡な状況があり、クラスの重複の問題もあるかどうかを知りたいです。各レコードには30個の属性がありますが、Weka機能を使用してクラスが重複しているかどうかを確認するにはどうすればよいですか?

4

3 に答える 3

2

クラスの重複は、異なるクラスの一部のサンプルが非常に類似した特性を持つ場合に発生します

  1. データセットをクラスター化します。
  2. インスタンスが同じクラスターに属している場合、それらは非常に似ています。
  3. 次に、実際のクラスメンバーシップを使用してエラー率を見つけます。
  4. インスタンスが同じクラスターに属していても、それらのクラスが異なる場合は、求めているものが見つかります。
于 2012-04-10T06:06:20.550 に答える
0

クラスの不均衡の問題を解決するには、SMOTEを使用できます。これは、Wekaの監視対象フィルター(インスタンス)にあります。しかし、クラスの重複とはどういう意味ですか?

于 2012-04-06T06:48:20.557 に答える
0

「クラスの重複」という意味だと思います。異なるクラスに属する同様のインスタンスが存在します。簡単に、それらを削除することができます。awkでは、次のことができます。

awk '!NF || !seen[$0]++' inputFile > outputFile

于 2017-11-14T17:09:49.783 に答える