2

私の犯罪分類データセットには、 などの指標機能がありますhas_rifle

仕事は、データポイントが犯罪者かどうかを訓練して予測することです。メトリックは加重平均絶対誤差であり、その人物が犯罪者であり、モデルが犯罪者ではないと予測した場合、重みは のように大きくなり5ます。人が犯罪者ではなく、モデルが犯罪者であると予測した場合、体重は1です。それ以外の場合、モデルは weight で正しく予測し0ます。

classif:multinomでメソッドを使用mlrR、しきい値を に調整しました1/6。結果はそれほど良くありません。Adaboost少し良いです。どちらも完璧ではありませんが。

スパース{0,1}行列を使用したこの種のバイナリ分類問題で通常使用される方法はどれですか? また、加重平均絶対誤差メトリックによって測定されたパフォーマンスを改善するにはどうすればよいでしょうか?

4

1 に答える 1

0

まばらなデータを扱うのは簡単な作業ではありません。情報が不足していると、分散などの特徴を捉えることが難しくなります。サブスペース クラスタリングの方法を検索するか、より具体的なソフト サブスペース クラスタリングを検索することをお勧めします。最後の 1 つは、通常、関連するデータ ディメンションと関連しないデータ ディメンションを識別します。分類精度を向上させたい場合に適した方法です。

于 2016-04-27T18:15:14.523 に答える