Micorosft SQL Server を使用しています。2 つのテーブル t1 と t2 があり、それぞれが次の一連の変数で構成されています: PatientID、AdmissionDate、DiagnosisCode。入院内の複数の診断が複数の行として表示されることに注意してください。各テーブルには、異なる患者のリストが表示されます。これらのテーブルは大きいため、ソリューションは効率的でなければなりません (400,000 行)。表 1 の患者と表 2 の患者の類似性を計算したいと思います。類似性は、2 人の患者が共有する診断数の比率を次の合計で割った値として定義されます。
.8*(表 2 の患者と一致しない表 1 の患者の診断数) + .2*(表 1 の患者と一致しない表 2 の患者の診断数) + (数2 人の患者が共有する診断の
この問題を整理する方法についての提案は大歓迎です。