巨大な「動的」データセットがあり、その上で興味深いクラスターを見つけようとしています。
多くの異なる教師なしクラスタリング アルゴリズムを実行した後、一貫した結果が得られるDBSCANの構成を見つけました。
DBSCAN
テスト データに従って作成されたモデルを推定して、それを他のデータセットに適用したいと思いますが、アルゴリズムを再実行する必要はありません。データセット全体に対してアルゴリズムを実行するとメモリが不足するため、アルゴリズムを実行できません。また、データが動的であるため、別の時点でモデルが意味をなさない可能性があります。
sklearnを使用して、他のクラスタリング アルゴリズム ( MiniBatchKMeansなど) にはpredict
メソッドがあるが、DBSCAN
ないことがわかりました。
MiniBatchKMeans
重心はモデルを一意に定義することを理解しています。しかし、そのようなものは存在しないかもしれませんDBSCAN
。
私の質問DBSCAN
は次のとおりです。モデルを推定する適切な方法は何ですか? DBSCAN
テスト データセットで得られた出力を使用して、教師あり学習アルゴリズムをトレーニングする必要がありますか? DBSCAN
または、アルゴリズムを再実行せずに新しいデータを分類するために使用できるモデルに本質的に属するものはありますか?