7

ソーシャル ネットワーク グラフ内のノードのいくつかのメトリックを組み合わせて、ノードをランク​​付けするための単一の値にしたいと考えています。

in_degree + betweenness_centrality = informal_power_index

問題は、in_degreebetweenness_centralityが異なるスケールで測定されていることです。たとえば、0 ~ 15 対 0 ~ 35000 であり、べき乗分布に従っています (少なくとも正規分布ではないことは間違いありません)。

を決定する際に一方が他方を支配しないように、変数を再スケーリングする良い方法はありinformal_power_indexますか?

3 つの明白なアプローチは次のとおりです。

  • 変数の標準化 ( で減算meanおよび除算stddev)。これは、分布を押しつぶしすぎて、ロングテールの値とピーク付近の値の大きな差を隠してしまうようです。
  • min(variable)で減算して除算することにより、変数を [0,1] の範囲に再スケーリングしますmax(variable)。これは分布の形状を変更しないため、問題の修正に近づいているように見えますが、実際には問題に対処しないのでしょうか? 特に手段が異なります。
  • 各値を で割って平均を等しくしますmean(variable)。これはスケールの違いに対処しませんが、おそらく比較には平均値の方が重要ですか?

他のアイデアはありますか?

4

4 に答える 4

4

あなたは根底にある分布について強い感覚を持っているようです。自然な再スケーリングは、各変量をその確率に置き換えることです。または、モデルが不完全な場合は、それをほぼ達成する変換を選択します。それに失敗すると、関連するアプローチがあります。(各変量の) ヒストグラムを作成するための単変量データが多数ある場合は、0-10% パーセンタイルにあるかどうかに基づいて、それぞれを 10 ポイント スケールに変換できます。 10-20%-パーセンタイル ...90-100% パーセンタイル。これらの変換された変量は、構造上、1、2、...、10 で一様分布を持ち、必要に応じてそれらを組み合わせることができます。

于 2009-04-01T03:30:15.803 に答える
1

非常に興味深い質問です。このようなものが機能する可能性があります:

両方の変数を[-1,1]の範囲にスケーリングしたいとします。範囲が0〜35000のbetweeness_centralityの例を取り上げます。

  1. 変数の範囲の順に大きな数値を選択してください。例として、25,000を選択しましょう
  2. 元の範囲[0-35000]に25,000のビンを作成し、新しい範囲[-1,1]に25,000のビンを作成します。
  3. 番号xiごとに、元のビンに含まれるbin#を見つけます。これをBiにしましょう
  4. [-1,1]の範囲でBiの範囲を見つけます。
  5. xiのスケーリングされたバージョンとして、[-1,1]のBiの範囲の最大/最小のいずれかを使用します。

これにより、べき乗則の分布が維持され、[-1,1]にスケールダウンされ、(x-mean)/sdで発生するような問題は発生しません。

于 2012-06-28T18:44:56.257 に答える
1

それぞれをパーセンテージに変換してから、それぞれを既知の数量に適用できます。次に、新しい値の合計を使用します。

((1 - (in_degee / 15) * 2000) + ((1 - (beforeness_centrality / 35000) * 2000) = ?

于 2009-04-01T03:18:51.400 に答える
0

[0,1]に正規化することは、2つの値を組み合わせるという私の短い答えの推奨事項です。これは、前述のように分布の形を維持し、値を組み合わせる問題を解決するためです。

2つの変数の分布が異なる場合、これは私があなたの後に思うものを実際に与えない可能性があります。これは、各変数がその与えられた分布内のどこにあるかを組み合わせた尺度です。与えられた分布のどこに値があるかを決定するメトリックを考え出す必要があります。これは多くの方法で行うことができます。そのうちの1つは、与えられた値の平均からの標準偏差の数を決定することです。これらの2つの値を何らかの方法で組み合わせて、インデックスを取得します。(追加では不十分な場合があります)

調べているデータセットにとって何が最も理にかなっているのかを理解する必要があります。標準偏差はアプリケーションにとって意味がない場合がありますが、正規化されているかどうかに関係なく、絶対値を組み合わせるのではなく、分布に関連する統計的測定値を調べてそれらを組み合わせる必要があります。

于 2009-04-01T03:35:42.013 に答える