java - 実世界のアルゴリズム-入力値の一意性の測定

Question

キーと値のペアのリストがあります。キーごとに、値がどれほど一意であるかを確認したいと思います。たとえば、特定のキーk1の場合、すべての値が同じである可能性があります。（最良の場合）。キーk2の場合、値の半分は1つのタイプであり、残りの半分は異なります。。。同様に、キーkxの場合、どの値も一致しません（最悪の場合）。

上記に基づいてこれらの各キーにランク（またはパーセンテージなど）を付け、最終的な順序を設定して、さまざまな値（たとえば、事前定義されたしきい値ランクまたはパーセントを超える）を持つキーを除外できるようにします。

これは、データマイニングコースで学んだいくつかの概念に何らかの関係があると思いますが、効果的に思い出せません。

ありがとう。

score -1 · Accepted Answer

おそらく、これには何らかの情報理論を使用できます。

キーごとに、値のエントロピーを計算できます。エントロピーが高いほど、キーの値は多様になります。それを使用してキーをランク付けできます。

次の記事では、いくつかの関連トピックについて説明します: Calculating Entropy for Data Mining .

score -1 · Accepted Answer

http://en.wikipedia.org/wiki/Association_rule_learningのデータマイニング用語では、インデックスを値を予測する手段と見なすことができます。この場合、信頼性 (最も頻繁な値のパーセンテージ) に関心があるかもしれません。そのインデックスのために。また、ランダムに選択された 2 つの値が同じである確率を調べることもできます。これは、値の頻度の 2 乗の合計、またはhttp://en.wikipedia.org/wiki/Shannon_entropyになります。同様の特性ですが、対数を取る必要があります。

java - 実世界のアルゴリズム-入力値の一意性の測定

2 に答える 2

Related

Reference