class - クラスの重複についてデータセットを評価する方法

Question

私はWekaを使用して、医学的問題の分類器を開発しています。このデータセットにはクラスの不均衡な状況があり、クラスの重複の問題もあるかどうかを知りたいです。各レコードには30個の属性がありますが、Weka機能を使用してクラスが重複しているかどうかを確認するにはどうすればよいですか？

score 2 · Accepted Answer

クラスの重複は、異なるクラスの一部のサンプルが非常に類似した特性を持つ場合に発生します

score 0 · Accepted Answer

クラスの不均衡の問題を解決するには、SMOTEを使用できます。これは、Wekaの監視対象フィルター（インスタンス）にあります。しかし、クラスの重複とはどういう意味ですか？

score 0 · Accepted Answer

「クラスの重複」という意味だと思います。異なるクラスに属する同様のインスタンスが存在します。簡単に、それらを削除することができます。awkでは、次のことができます。

awk '!NF || !seen[$0]++' inputFile > outputFile

3 に答える 3