python と scikits.learn を使用して、使用する最適なクラスタ化手法について提案をお願いします。私たちのデータは、さまざまな基質上の細胞の代謝活性を経時的に測定する表現型マイクロアレイから得られます。出力は一連のシグモイド曲線であり、シグモイド関数へのフィッティングを通じて一連の曲線パラメーターを抽出します。
固定数のクラスターを使用して、クラスター化によってこのアクティビティ曲線を「ランク付け」したいと考えています。今のところ、(init='random', k=10, n_init=100, max_iter=1000) で、パッケージによって提供される k-means アルゴリズムを使用しています。入力は、n_samples と各サンプルの 5 つのパラメーターを含む行列です。サンプル数はさまざまですが、通常は数千 (つまり 5,000) 程度です。クラスタリングは効率的で効果的だと思われますが、さまざまな方法やクラスタリングの品質を評価するための最良の方法についての提案をいただければ幸いです。
ここに役立つかもしれないいくつかの図があります:
入力パラメーターの散布図 (それらのいくつかは非常に相関しています)、単一サンプルの色は、割り当てられたクラスターに関連しています。
入力パラメータが抽出されたシグモイド曲線。その色は、割り当てられたクラスタに関連しています
編集
いくつかのエルボー プロットの下に、各クラスター数のシルエット スコアがあります。