20000 行を超える元のデータセットを扱っています。これの要約版は以下のようになります
Row x y z Group Survive
1 0.0680 0.8701 0.0619 1 78.43507
2 0.9984 0.0016 0.0000 1 89.55533
3 0.4146 0.5787 0.0068 1 85.35468
4 0.3910 0.6016 0.0074 2 67.49987
5 0.3902 0.6023 0.0075 2 81.87669
6 0.0621 0.8701 0.0678 2 27.26777
7 0.6532 0.3442 0.0026 3 53.03938
8 0.6508 0.3466 0.0026 3 62.32931
9 0.9977 0.0023 0.0000 3 97.00324
私の目標は、以下に示すように Match1 という列を作成することです
Row x y z Group Survive Match1
1 0.0680 0.8701 0.0619 1 78.43507 g1r1-g2r3
2 0.9984 0.0016 0.0000 1 89.55533 g1r2-g2r1
3 0.4146 0.5787 0.0068 1 85.35468 g1r3-g2r2
1 0.3910 0.6016 0.0074 2 67.49987 g1r2-g2r1
2 0.3902 0.6023 0.0075 2 81.87669 g1r3-g2r2
3 0.0621 0.8701 0.0678 2 27.26777 g1r1-g2r3
1 0.6532 0.3442 0.0026 3 53.03938 NA
2 0.6508 0.3466 0.0026 3 62.32931 NA
3 0.9977 0.0023 0.0000 3 97.00324 NA
値 g1r1-g2r3、g1r2-g2r1、g1r3-g2r2 の背後にあるロジックは次のとおりです。
最初のステップでは、マハラノビスまたは単純な距離法に基づいて、Group1 と Group2 の行間に距離行列が生成されます。sqrt((x2-x1)^2 + (y2-y1)^2 + (z2-z1)^2)
0.4235 = sqrt{ (0.3910-0.0680)^2 + (0.6016-0.8701)^2 + (0.0074-0.0619)^2}
0.4225 = sqrt{ (0.3902-0.0680)^2 + (0.6023-0.8701)^2 + (0.0075-0.0619)^2}
0.0083 = sqrt{ (0.0621-0.0680)^2 + (0.8701-0.8701)^2 + (0.0678-0.0619)^2}
0.8538 = sqrt{ (0.3910-0.9984)^2 + (0.6016-0.0016)^2 + (0.0074-0.0000)^2}
0.8549 = sqrt{ (0.3902-0.9984)^2 + (0.6023-0.0016)^2 + (0.0075-0.0000)^2}
1.2789 = sqrt{ (0.0621-0.9984)^2 + (0.8701-0.0016)^2 + (0.0678-0.0000)^2}
0.0329 = sqrt{ (0.3910-0.4146)^2 + (0.6016-0.5787)^2 + (0.0074-0.0068)^2}
Group1 vs Group2
g2r1 g2r2 g2r3
g1r1 0.4235 0.4225 0.0083
g1r2 0.8538 0.8549 1.2789
g1r3 0.0329 0.0340 0.4614
2 番目のステップでは、各行の最小または最小距離を見つけます。
g2r1 g2r2 g2r3
g1r1 0.4235 0.4225 **0.0083**
g1r2 **0.8538** 0.8549 1.2789
g1r3 0.0329* **0.0340** 0.4614
行 、Row1-Group1 および Row3-Group2 が最小距離 0.0083 になるため、列Match1
の値は g1r1-g2r3 になります。同様に、g1r2-g2r1 は、Row2-Group1 と Row1-Group2 が最小値 0.8538 になるためです。0.0329 は距離行列の最後の行の最小値ですが、0.0329 を選択すると Row3-Group1 と Row1-Group2 がペアになり、Row1-Group2 は既に Row2-Group1 とペアになっているため、この値をスキップして次に小さい値 0.0340 を選択しました。であるため、次に小さい値 0.0340 を選択すると、g1r1-g2r3 になります。
3 番目のステップでは、ステップ 2 で一致した観測に基づいて平均生存率を計算します。
(78.43507 - 27.26777) + (89.55533 - 67.49987) + (85.35468 -81.87669)/3 = 25.56692
これらの手順をプログラムでつなぎ合わせる方法がわかりません。提案をいただければ幸いです。または、これらすべての部分を効率的にまとめるのに役立ちます。