1

患者データセットに k-mean、k-medoid、DBSCAN などのクラスタリング アルゴリズムを適用しました。RapidMiner が生成したアルゴリズムごとに、クラスター化されたモデル (セントロイド テーブルとグラフなど) とクラスター化されたセット (どのサンプルがどのクラスターの一部であるかを示します)。ここで、新しい患者が来たときに、以前にトレーニングされたモデルに基づいてクラスターを割り当てたいという方法が必要です。私はこれを行う方法について混乱しています..それはそのようなものですか、私は間違っているかもしれません

新しい患者の各属性値について - 患者の属性のすべての違いを合計し、平均を取る重心テーブルからのその属性値。

次に、その患者に関して平均が最小であるクラスターを彼に割り当てます。

これが正しい方法である場合、どのように再クラスター化するか、つまり、新しい患者が来たときに、アルゴリズムが彼にクラスターを割り当てます。それは意地悪です。セントロイドが移動し、レコードを挿入するたびに再クラスター化する必要があります。私のシナリオでこれを処理する方法は?

4

1 に答える 1

0

ストリームに適用する場合は、オンライン クラスタリング アルゴリズムを参照してください。

オンラインの k-means バリアントなどがあります。

通常、既存のすべての例を再クラスタリングすることは避けたいと考えています。これは、無限のデータ ストリームと有限のメモリでは機能しないためです。

通常、従来のクラスタリング アルゴリズムを実行した場合とまったく同じ結果を得ようとするのではなく、多少の誤差を受け入れることを学ぶことをお勧めします結局のところ、これらのアルゴリズムはすべてヒューリスティックにすぎません。近似が良好である限り、ヒューリスティックを近似することに問題はありません。

于 2013-07-08T16:50:42.110 に答える