私はSimilarity Measureを読ん でいて、突然私の全世界がバラバラになりました。Clustering Technique を使用して検索エンジンを実装しました。Clustering には、ユークリッド距離としての距離測定値を持つ K Means を使用しました。また、コサイン類似度を使用して結果を表示しました。私は驚くほど正確な結果を得ていました.しかし、これを読んだ今、私がしたことは、ドキュメントベクトルを正規化し、2つのベクトル間のユークリッド距離を計算したため、マグニチュードをどこにも考慮していません.
私は何か間違っていますか?
ターム頻度が高いほど、tf-idf 値が高くなり、正規化された tf-idf 値が高くなるため、適切にランク付けされると思いますが。ありがとう
結果(正規化されていないベクトルを使用、数字はユークリッド距離)
61.79689257425985 222Proposed Research Details.doc
144.15451315901478 and_Integrated_Assessment_of__Natural_resources_and_evolution_of_alternate_sustainable_land_management_options_for_tribal_dominated_watersheds_RRPS_24.doc
72.61392308146608 done_Developing live fencing systems for soil & water conservation_NATIP-RNPS-3 SKN Math).doc
72.96125277156261 done_Management strategies for impriing rabi (SKN Math).doc
65.51734241367222 done_RPFIII_dr.dogra.doc
66.72042766100921 Evaluation of crops and their varieties (SKN Math).doc
418.8868087170988 P. VIJAYA KUMAR (DSS).doc
140.3914521621597 RPF - I PIMS-ICAR project proposal for IASRI.doc
72.95414421468679 RPF-III__Indo-US_project.doc
82.25126123574397 220Introduction and objectives.doc
結果(ベクトルは正規化、数値はユークリッド距離)
1.3435369899385359 222Proposed Research Details.doc
1.1277471087250086 and_Integrated_Assessment_of__Natural_resources_and_evolution_of_alternate_sustainable_land_management_options_for_tribal_dominated_watersheds_RRPS_24.doc
1.2741267093494966 done_Developing live fencing systems for soil & water conservation_NATIP-RNPS-3 SKN Math).doc
1.264154265747389 done_Management strategies for impriing rabi (SKN Math).doc
1.2902191708899362 done_RPFIII_dr.dogra.doc
1.3128744973475515 Evaluation of crops and their varieties (SKN Math).doc
0.4924243033927417 P. VIJAYA KUMAR (DSS).doc
1.1747048933792805 RPF - I PIMS-ICAR project proposal for IASRI.doc
1.29150899172647 RPF-III__Indo-US_project.doc
1.318016051789028 220Introduction and objectives.doc
結果(数値はコサイン類似度)
0.09745417833344654 222Proposed Research Details.doc
0.36409322938119104 and_Integrated_Assessment_of__Natural_resources_and_evolution_of_alternate_sustainable_land_management_options_for_tribal_dominated_watersheds_RRPS_24.doc
0.1883005642611103 done_Developing live fencing systems for soil & water conservation_NATIP-RNPS-3 SKN Math).doc
0.2009569961963377 done_Management strategies for impriing rabi (SKN Math).doc
0.16766724553404047 done_RPFIII_dr.dogra.doc
0.13818027710720598 Evaluation of crops and their varieties (SKN Math).doc
0.8787591527140649 P. VIJAYA KUMAR (DSS).doc
0.3100342067353838 RPF - I PIMS-ICAR project proposal for IASRI.doc
0.16600226214483405 RPF-III__Indo-US_project.doc
0.13141684361322944 220Introduction and objectives.doc
結果 1 と 2 は一致しませんが、2 と 3 は一致しています。より多くの類似性、より少ない距離。距離は、クラスター重心ベクトルと各ドキュメントのドキュメント ベクトルとの間で取得されます。
実際、最も奇妙な結果は、ユークリッド距離が 418 で、最も類似度が 0.87 のドキュメントです。正規化された距離は 0.49 になり、類似度と一致します。