histogram - weka を使用してヒストグラムを計算する方法

Question

23 点が 6 次元に広がっているデータセットがある場合、この演習の最初の部分では次のことを行う必要があります。

CLIQUE アルゴリズムの最初のステップ (すべての高密度セルの検出) を計算します。ドメイン 0..100 の次元ごとに 3 つの等間隔を使用し、セルに少なくとも 5 つのオブジェクトが含まれている場合、そのセルは密集していると見なします。

これは些細なことであり、単純に数える問題です。ただし、次の部分では次のことが求められます。

Preprocess、Classify、Cluster、または Associate のタブで提供される Weka の関数のみを使用して、上記の CLIQUE の結果を計算する方法を特定します。 ヒント : 必要なタブは 2 つだけです。

私はこれを1時間以上試していますが、ここで解決策に近づくことができないようです. 誰かがヒント、またはwekaについてもう少し洞察を与える便利なチュートリアルを持っていれば、それは非常にありがたいです!

score 2 · Accepted Answer

23 個のインスタンス (行) と 6 個の属性 (ディメンション) があると想定しています。

次元ごとに 3 つの等間隔を使用する

前処理タブを使用して、データを 3 つの等しいビンに離散化します。画像またはコマンドラインを参照してください。間隔に 3 つのビンを使用します。useEqualFrequency を false および true に変更して、再試行することもできます。true の方が良い結果が得られる可能性があると思います。

weka.filters.unsupervised.attribute.Discretize -B 3 -M -1.0 -R 最初-最後

unsupervised.attribute.Discreteize

その後、データをクラスター化します。これにより、近くのインスタンスが表示されます。密度の高い細胞を見つけたいので。SOMが適切かもしれないと思います。

少なくとも 5 つのオブジェクトが含まれているセルの密度。

23 のインスタンスがあります。したがって、2x2=4 クラスターの中心を試してから、2x3=6、2x4=8 および 3x3=9 に進みます。データポイントが近い場合。クラスターセンターの中には、選択したクラスターセンターの数に関係なく、常に 5 つのインスタンスを保持する必要があるものがあります。

histogram - weka を使用してヒストグラムを計算する方法

1 に答える 1

Related

Reference