1

私はmahout0.8を使用しており、データをクラスタリングした後、次のコマンドを使用して結果を確認します。

mahout clusterdump --seqFileDir clusters / clusters-77 / --pointsDir clusters / clusteredPoints /

また、行が同じクラスターにクラスター化されている理由を知りたいです。これを学ぶために、クラスター内で類似している機能/ディメンションを見つけるためのコードを書くことができると思います。

コードを記述せずに、行が同じクラスターにクラスター化されている理由を見つけることができますか?

一言で言えば、私はクラスターの特徴を学びたいと思います。

4

1 に答える 1

2

多くのクラスタリング アルゴリズムでは説明がありません。仮にそうであったとしても、その答えはおそらく「クラスター中心 X が最も近いから」に過ぎないでしょう。特に、k-means は、特定の数式の (ローカル) 最小値を検索するように記述できる数値最適化手法です。したがって、本質的には、このクラスターの割り当てが与えられた方程式を最小化するためです。

ある程度までは、これは問題に固有のものです。クラスタリングは教師なしの手法であり、通常は方程式の最小化やグラフのサブセットの計算などの概念に基づいています (たとえば、密度ベースのクラスタリングでは、DBSCAN は密度に接続されたサブグラフを見つけるものと見なすことができます)。

「ビッグデータ」に入るとき、説明はほとんど興味がありません。数十点程度であれば、説明でも結構です。何十億もあるとしたら、一体誰が説明を (存在するとしても) 見るのでしょうか? Mahout などのシステムでは、多くの場合、正確な解でさえ計算されず、近似値が計算されます。できるだけ速くする必要があり、精度を無視しても構わないと思っている場合は、おそらく説明も喜んで破棄します。

クラスターについて詳しく知りたい場合は、次のいずれかを実行できます。

  • 独自の方法でクラスタリング後に検査する
  • より小さなデータ サイズと、説明を提供するより複雑なアルゴリズムを使用する

また、データ セットが 1 つのシステムで処理できるほど小さい場合は、そもそも Mahout を使用しません。本当に巨大なデータセットに対してのみ賢明です。すべての Hadoop の機能には、1 台のコンピューターの設定では必要のないオーバーヘッドがかかります

于 2012-08-28T06:18:56.140 に答える