controls - Mahout の合成制御データの例

Question

Mahout の wiki には、合成制御データでクラスタリングを使用する例が含まれています (こちら)。

この例には、データ内の 6 つのパターンごとに 100 行のデータを含むデータサンプルが含まれています。サンプルコードを実行したときに期待することは、クラスタリングメソッドの中には、より良いまたは悪いクラスタリングを提供するものもあれば、6 つのパターンをグループ化するクラスターを多かれ少なかれ提供するものもあるということです。

これは、例を実行したときに見たものではありません。初心者として、これは非常に混乱します。さらに、データが正規化されておらず、循環データの周期が一致していないため、この生データがどのように適切にクラスター化されるかを確認することは非常に困難です。

何か不足していますか？より経験豊富な Mahout-er は、この特定の例で何を期待すべきかについて、ある程度のオリエンテーションを提供できますか?

時系列データのパターンをクラスター化できるシナリオに非常に興味があります。データを正規化し、クラスタリングの基礎としてポイントツーポイントデルタを使用してみましたが、わずかに良い結果が得られました。より経験豊富なデータアナリストは、より良いアプローチを提案していますか?

controls - Mahout の合成制御データの例

0 に答える 0

Related

Reference