-1

私はデータマイニングと統計にまったく慣れていません。

Visual Studio でデータ マイニング モデルを構築しました。Microsoft クラスタリング アルゴリズムを使用していますが、問題が発生しました。

最大入力パラメーターを 350 に設定し、クラスタリング方法を非スケーラブル期待値最大化に設定するなど、いくつかのデフォルト パラメーターを変更しました (80 000 行のデータがあります)。また、アルゴリズムが最適なものを選択するように、クラスター数を 0 に設定しました。

ここで問題が発生します。PC を再起動するたびにフラッシュされる te​​mpdb を使用しています (空き容量があまりないため、その部門では tempdb が適しています)。とにかく、同じデータをリロードしてマイニング構造を構築すると、まったく異なる結果が得られます。あるときは 10 個のクラスターを取得し、次に 13 個、その後 9 個を取得しました。また、同じクラスターを再現するためにクラスター数を強制的に 13 にしようとしましたが、それらも異なります (クラスター自体の分布とサイズは異なります)。

私の質問はなぜですか?EM決定論的ではありません。サイズと分布の小さな変化は理解していますが、DB がフラッシュされるたびに異なる結果が得られます。アルゴリズムは、非常に異なる結果ではなく、ほぼ同じ結果を与えるべきではありません。私は何か間違ったことをしていますか?

4

1 に答える 1