0

混合属性データセット間の距離を計算する関数はありますか? たとえば、距離を計算する方法はD = d1 - d2? どこd1(100,TCP,1480)d2(200,ICMP,1650)

4

2 に答える 2

0

工学と科学では、無次元数を使用して状況を記述し、関連する特性スケールを使用しますそれらの無次元数を作成します。たとえば、流体の乱流を調べている場合、明らかに多数の変数に当惑する可能性があります。しかし、乱流は、粘性に対して作用する運動量の相互作用によって支配されます。実際には、システムの重要な特性測定値はわずかしかなく、相互作用は比率として表すことができます。比率は無次元です (レイノルズ数と呼ばれます)。大きな値は乱流を意味し、小さな値は層流 (滑らかな) 流れを意味します。したがって、この数値は一種の距離関数であり、動揺することのない滑らかな流れからどれだけ離れているかを示します。相対性理論では、時間差に光速を乗じて長さに換算することで、空間と時間の距離を1つの距離として表すことができ、

したがって、同様のことを行うには、ある程度のドメイン知識を使用する必要があります。

ただし、距離が意味のある概念であるかどうかも自問する必要があります。距離は比例スケールの尺度です: ある距離が別の距離の 2 倍であることを意味のある言葉で表すことができます。考慮している属性が比例スケールで測定されていない場合、距離について話すことはナンセンスです. あなたのデータには、順序付けられていない離散値である「TCP」と「ICMP」が含まれていることに注意してください。距離は、データ セットにとって単に無意味な概念である可能性があります。

于 2014-04-24T07:44:57.083 に答える
0

恐ろしい KDDCup 1999 データ セットを使用している場合は、次の回答をお読みください: https://stackoverflow.com/a/22522174/1060350 - データ セットは役に立たないので、もう使用しないでください。

Gower の距離などの距離を試すことができます。しかし、ほとんどの場合、それらはネットフローデータでは何の役にも立たないでしょう。代わりに、ドメインの知識を取り入れるようにしてください。2 つのネットフローが似ている場合の質問に答えてから、これを方程式に入れます。魔法のように機能する方程式を見つけようとする代わりに。

Gower やその他のストック距離関数が機能しない理由の 1 つは、ネットワーク データの分布が非常に歪んでおり、通常は負の値がないことです。それは本当のユークリッド空間ではありません。

于 2014-04-20T11:04:58.240 に答える