0

データのサンプルを密度 (発生数/エッジの長さ) に基づいてビンに入れる関数を作成する方法を見つけようとしています。しかし、そこには多くの例がありません。

出力はエッジのベクトルを与えます。ここで両方:

  1. ビンの数は、密度が異なるデータをしきい値 (おそらく 40%?) でグループ化するために必要な数によって決まります。

  2. エッジの長さは、隣接するデータ グループの密度が類似しているかどうかによって決まります。(同様の密度がグループ化されますが、隣接するビンの密度が 40% 前後の場合は、別のビンが必要になります)。

私の要点を説明するために、以下に簡単な例を示します。

1 から 10 の範囲のデータ値があり、x=[1,2,3,4,5,5,5,6, 6,7]; の 10 個の観測値があります。

x は、エッジが [1,5,6,7,8] の範囲になるため、ビンが異なる密度クラスターを表すという理由だけで 4 つの状態があります。

私の実際のデータは継続的であることに言及してください。

大規模なデータ サンプルの予備的なアルゴリズムを考えました。

  1. データを昇順に並べ替えます。

  2. 少なくとも 10 個の要素を持つグループのグループ データ

  3. 密度を計算して比較し、類似のものをグループ化します。

3点目でつまずきました。それらを効果的にグループ化する方法がわからない場合。私の障害は、密度がゆっくりと増加する場合に発生しますが、徐々に増加します。たとえば、密度: 1,2,3,4,5,6,7,8,9,10

どこでそれを休憩と呼び、あるグループが別のグループとは異なる密度を持っていると言えますか.

4

0 に答える 0