相対頻度を使用して、D1 と D2 などの 2 つのドキュメント間のユークリッド距離 (類似度) を計算するにはどうすればよいですか?
以下は、絶対頻度を使用した 2 つのドキュメント間のコサイン距離とユークリッド距離の両方の例です。
D1 (frequencies) = 4,9,7,0,0,3. = {16+81+49+9} = sqrt (155) = 12.45
D2 (frequencies) = 4,5,0,7,5,0. = {16+25+49+25} = sqrt (115) = 10.72
コサイン D1,D2 = (4x4+9x5) / 12.45x10.72 = 0.4569 (絶対周波数 & 相対周波数) コサインの絶対周波数は相対周波数と同じです
また
ユークリッド D1、D2 = sqrt( sqr(4-4) + sqr(9-5) + sqr(7) + sqr(7) + sqr(5) + sqr(3) ) =sqrt( 0+16+49+ 49+25+9) = sqrt( 148 ) = 12.17(絶対度数)。
この相対頻度は0.2532です。
この問題の相対頻度 ( euclidean )を取得しようとしていますが、役立つチュートリアルが見つかりません。数式や説明なしで、答え0.2532しか見つけることができませんでした。