3

Mahout の wiki には、合成制御データでクラスタリングを使用する例が含まれています (こちら)。

この例には、データ内の 6 つのパターンごとに 100 行のデータを含むデータ サンプルが含まれています。サンプル コードを実行したときに期待することは、クラスタリング メソッドの中には、より良いまたは悪いクラスタリングを提供するものもあれば、6 つのパターンをグループ化するクラスターを多かれ少なかれ提供するものもあるということです。

これは、例を実行したときに見たものではありません。初心者として、これは非常に混乱します。さらに、データが正規化されておらず、循環データの周期が一致していないため、この生データがどのように適切にクラスター化されるかを確認することは非常に困難です。

何か不足していますか?より経験豊富な Mahout-er は、この特定の例で何を期待すべきかについて、ある程度のオリエンテーションを提供できますか?

時系列データのパターンをクラスター化できるシナリオに非常に興味があります。データを正規化し、クラスタリングの基礎としてポイント ツー ポイント デルタを使用してみましたが、わずかに良い結果が得られました。より経験豊富なデータ アナリストは、より良いアプローチを提案していますか?

4

0 に答える 0