より良いデータ マイニングにとって三角形の法則がなぜそれほど重要なのかを知りたいと思っています。私が知る限り、三角形の法則は、さまざまなオブジェクト間の距離に基づいてパターンを定義し、クラスターを形成するのに役立ちます。 ?
1 に答える
1
実際にはそれほど重要ではありません。データマイニングでは、一般的に適切な「数学的」距離関数があると仮定することはできません。重複を許可するとすぐに、重要な公理の 1 つが失われます -距離が 0 の 2 つの異なるオブジェクトを持つことができます (分類では、最悪の場合、異なるクラスを持つことさえあります)。
ただし、三角形の不等式により、検索スペースを削減できます。三角形の不等式を満たす距離関数があり、適切なインデックスを使用する場合、多くの計算をスキップできるため、アルゴリズムが高速になります。
多くの研究と実装では、この種の最適化はあまり考慮されていないことに注意してください。多くのデータ マイナーは R を使って距離行列を構築するのが好きで (これはO(n^2)
! にあります)、行列演算をできるだけ多く実行しようとします。これはプログラミングが簡単で、R はこの種の演算で非常に高速であるためです (高度な解釈された R コードではなく、最適化された C コード)。しかし、これを超える必要がある場合、パフォーマンスの重要な要素は、可能な場合は三角形の不等式を利用することです。
于 2012-09-03T08:01:18.377 に答える