-1

キーと値のペアのリストがあります。キーごとに、値がどれほど一意であるかを確認したいと思います。たとえば、特定のキーk1の場合、すべての値が同じである可能性があります。(最良の場合)。キーk2の場合、値の半分は1つのタイプであり、残りの半分は異なります。。。同様に、キーkxの場合、どの値も一致しません(最悪の場合)。

上記に基づいてこれらの各キーにランク(またはパーセンテージなど)を付け、最終的な順序を設定して、さまざまな値(たとえば、事前定義されたしきい値ランクまたはパーセントを超える)を持つキーを除外できるようにします。

これは、データマイニングコースで学んだいくつかの概念に何らかの関係があると思いますが、効果的に思い出せません。

ありがとう。

4

2 に答える 2

-1

おそらく、これには何らかの情報理論を使用できます。

キーごとに、値のエントロピーを計算できます。エントロピーが高いほど、キーの値は多様になります。それを使用してキーをランク付けできます。

次の記事では、いくつかの関連トピックについて説明します: Calculating Entropy for Data Mining .

于 2012-05-19T10:08:34.057 に答える
-1

http://en.wikipedia.org/wiki/Association_rule_learningのデータ マイニング用語では、インデックスを値を予測する手段と見なすことができます。この場合、信頼性 (最も頻繁な値のパーセンテージ) に関心があるかもしれません。そのインデックスのために。また、ランダムに選択された 2 つの値が同じである確率を調べることもできます。これは、値の頻度の 2 乗の合計、またはhttp://en.wikipedia.org/wiki/Shannon_entropyになります。同様の特性ですが、対数を取る必要があります。

于 2012-05-19T10:00:25.497 に答える