R パッケージの関数(デフォルト)のように、行列/データ フレーム ( x
) を入力し、距離測定値 (例: ) を指定することで、距離行列を作成する R 関数がいくつかあります。R パッケージには、 を拡張する関数(はい、同じ名前) があります。これには、ユーザーが関数、レジストリ エントリ、または近接測定を参照するニーモニック文字列を渡すことができる引数があります。これは、ユーザーが関数としてプログラムされた独自の距離測定を持っている場合に非常に便利です。例 ( のヘルプ ドキュメントから):Euclidean
dist
stats
proxy
dist
stats:dist
method
proxy
## input matrix
x <- matrix(rnorm(16), ncol = 4)
## custom distance function
f <- function(x, y) sum(x * y)
dist(x, f)
結果の距離行列は、(たとえば) の行 1 と行 2 の間の距離x
が 2.32 であることを示しており、これは として手動で計算できますsum(x[1,]*x[2,])
。この関数は と のf
2 つの引数x
を取ることに注意してください。これらは基本的に、関数y
の入力行列の 2 つの行です。つまり、距離の計算は入力行列のみに完全に依存します。x
proxy:dist
x
ここに私の質問があります:入力行列の距離行列も計算したいですx
(つまり、行は観測値であり、の行間のペアごとの距離を取得したいですx
)。ただし、距離を計算するために使用する関数は、入力行列だけに依存するのではx
なく、実際には から派生したいくつかの行列にx
依存します。必要な行列を と呼ばれるリストに保存します。このリストprep_matrices
は 3 つの行列で構成されています: A,B,C
(再現可能な結果のためにこれらを作成しました):
set.seed(111)
A = matrix(rnorm(9), nr=3)
set.seed(222)
B = matrix(rnorm(9), nr=3)
set.seed(333)
C = matrix(rnorm(9), nr=3)
明らかに、入力行列x
は 3行 3 列でありprep_matrices$A, prep_matrices$B, prep_matrices$C
、 から導出された行列が得られx
ます。ここで、 の 2 つの行の間の距離が次のx
ように計算されるとします (たとえば、行 1 と行 2)。
m1 = diag(A[1, ])
m2 = diag(A[2, ])
b1 = B[1, ]
b2 = B[2, ]
c1 = C[1, ]
c2 = C[2, ]
distance = mean(m1 %*% ( (diag(b1)-diag(b2)) %*% (diag(c1)-diag(c2)) %*% m2))
この例は説明のみを目的としていますが、距離がどのように計算されるかを理解していただければ幸いです。次に、いくつかの R 関数にリスト ( ) を渡して距離を直接取得することは不可能かもしれないことに気付きました。これは、prep_matrices
より多くの余分な計算が必要であり、最も重要なことに、距離は入力行列ではなく、多くの行列に基づいているためです。派生行列...
この場合、距離行列を取得するために R で効率的にコーディングする方法はありますか? それとも、既存の R 関数を変更できるでしょうか? どうもありがとう!