2

インスタンスが約200の特徴であり、これらの特徴の約11が数値(整数)で、残りがバイナリ(1/0)であるデータセットがあります。これらの特徴は相関している可能性があり、確率分布が異なります。

混合ベクトルに対して機能し、特徴間の相関を考慮に入れた、良好な類似性スコアを求めてきたのは久しぶりです。

そのような類似度スコアを知っていますか?

ありがとう、アリアン

4

2 に答える 2

3

あなたの場合、類似度関数は入力データパターンに大きく依存しています。トレーニングデータ間の距離関係を維持する類似/非類似ポイントのペアの特定のコレクションから、データの入力空間の距離メトリックを学習することでメリットが得られる場合があります。

これは素晴らしい調査論文です。

于 2012-11-12T03:02:11.983 に答える
2

ユークリッドマンハッタンなどのさまざまなタイプの距離測度は、データセットに応じてさまざまなレベルの精度を提供します。データフィッティングの方法をカバーする論文を読み、それらがどのヒューリスティックを使用しているかを確認するのが最善です。言うまでもなく、一部のメソッドは、それに応じてスケーリングする同種のデータのみを必要とします。これはあなたが魅力的だと思うかもしれない多くの対策について話している論文です。

そしていつものように、テストと相互検証を行って、機能タイプの混合による影響が実際にあるかどうかを確認します。

于 2012-11-09T23:33:25.550 に答える