インスタンスが約200の特徴であり、これらの特徴の約11が数値(整数)で、残りがバイナリ(1/0)であるデータセットがあります。これらの特徴は相関している可能性があり、確率分布が異なります。
混合ベクトルに対して機能し、特徴間の相関を考慮に入れた、良好な類似性スコアを求めてきたのは久しぶりです。
そのような類似度スコアを知っていますか?
ありがとう、アリアン
インスタンスが約200の特徴であり、これらの特徴の約11が数値(整数)で、残りがバイナリ(1/0)であるデータセットがあります。これらの特徴は相関している可能性があり、確率分布が異なります。
混合ベクトルに対して機能し、特徴間の相関を考慮に入れた、良好な類似性スコアを求めてきたのは久しぶりです。
そのような類似度スコアを知っていますか?
ありがとう、アリアン
あなたの場合、類似度関数は入力データパターンに大きく依存しています。トレーニングデータ間の距離関係を維持する類似/非類似ポイントのペアの特定のコレクションから、データの入力空間の距離メトリックを学習することでメリットが得られる場合があります。
これは素晴らしい調査論文です。