“k-means”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

5682 参照

hadoop - mahout clusterdumper からの出力の解釈

クロールされたページ (25,000 を超えるドキュメント、個人データセット) でクラスタリングテストを実行しました。clusterdump を実行しました:

クラスターダンパーを実行した後の出力には、25 個の要素 "VL-xxxxx {}" が表示されます。

この出力をどのように解釈しますか?

つまり、特定のクラスターに属するドキュメント ID を探しています。

の意味は何ですか:

VL-x?
n=yc=[z:z', ...]
r=[z'':z''', ...]

0:0.017 は、「0」がこのクラスターに属するドキュメント ID であることを意味しますか?

CL、n、c、r の意味については、mahout の wiki ページを既に読んでいます。しかし、誰かが私にそれらをよりよく説明してくれるか、もう少し詳しく説明されているリソースを指摘してもらえますか?

ばかげた質問をしている場合は申し訳ありませんが、私はApache mahoutの初心者であり、クラスタリングのコース割り当ての一部として使用しています。

2011-04-27T13:52:46.633

0 投票する

1 に答える

170 参照

java - kmeansクラスタリングプログラムへの入力として次の行列を与える方法はありますか？

次の「ページビューマトリックス」の列見出しがあると想像してください
。本の配置リソースbraca

各行はセッションを表します

これが私のマトリックス、サンプルです：

4 5 0 2 2
1 2 1 7 3
1 3 6 1 6

.txtファイルに保存

これをk-meansプログラムへの入力として指定し、発生頻度が最も高いクラスターを取得できますか？
どうすれば使えますか？

java cluster-analysis k-means

2011-04-30T21:09:57.010

0 投票する

2 に答える

1131 参照

algorithm - ランダムクラスタリングアルゴリズム

ポイントのセットがあり、それらからクラスターが必要です。通常の k-means アルゴリズムの実行方法を知っています。しかし、「k」を入力として取りたくありません。1,3,4,50,60,70,1000,10002,10004 のようなポイントがある場合、アルゴリズムはそれらを 3 つのクラスターにクラスター化する必要があります C1: 1,3,4 C2: 50,60,70 C3: 1000,1002 ,1004 を満たすクラスター内要素間の距離は最小であり、クラスター間距離は最大でなければなりません。

algorithm cluster-analysis k-means

2011-05-09T07:42:59.903

0 投票する

1 に答える

633 参照

r - 複数の個人によるrのクラスター分析

申し訳ありませんが、これを「きれい」に見せるためにHTMLなどを実際に使用する方法がわかりません。特に、私のサンプルデータを皆さんにとって役立つものにするためです。私は行くにつれてこれを学んでいます。

変数PersVel、TurnVel、およびVelocity（およびおそらく他の変数）でクラスター分析を実行しようとしていますが、これらは今のところ実行されます。私はすでに年ごとにデータを分けていますが、1年あたりの個人の数はさまざまです（IDはそれらの名前です）。個人ごとにこれらの変数に対してk-meansまたは階層的クラスター分析を実行したいと思います。以下のデータはわずか20データポイントです。対象の変数によるクラスターが特定されたら、それをカレンダーの日付または日付/時刻変数にリンクします。最終的には、クラスターがいつ発生したかを知りたいです。

IDをレベルに変換するコードをすでに作成しており、k-meansクラスタリングの変数を標準化する必要があると言われました（したがって、階層型でも同じことを行うと思いますが、それほど大きな問題ではありません）。個人をループさせる方法は？

それで？？？このテストを行うために次の部分を書くにはどうすればよいですか？

r cluster-analysis k-means hierarchical-clustering

2011-05-14T00:36:22.743

0 投票する

1 に答える

723 参照

cluster-analysis - 非排他的クラスターを返す Mahout の K-means

私のデータには、いいねのリストを持つユーザーがいます。これらのいいねを各ユーザーの個別のファイルにダンプし、それらをクラスター化したいと考えています。出力が複数のクラスターで同じように見えることを除いて、すべてが機能しています。私の理解では、k-means は排他的であるべきです。問題は、おそらくデータのダンプ方法にあると思います。また、カスタムトークナイザーを作成できるようになるまで、当分の間、すべてのいいねをスペースなしでダンプしました。これが私が実行しているものです（Rubyスクリプトから）。

出力には、各クラスターの「トップターム」が一覧表示されますが、多くの類似語が各クラスターで発生します (ただし、重みは異なります)。clusterdumper の通常の出力ですか?各単語がどのクラスターに属しているかをその重みで調べる必要がありますか?

ありがとう

cluster-analysis k-means mahout

2011-05-14T19:18:42.377

0 投票する

2 に答える

2244 参照

java - MFCC 機能の K-Means クラスタリングアルゴリズムを実装する方法

MFCC Algorithm でいくつかのサウンド変数の機能を取得しました。K-Means でそれらをクラスター化したい。私は 70 フレームを持っており、各フレームには 1 つの音声サンプルに対して 9 つのケプストラム係数があります。これは、70*9 サイズのマトリックスのようなものがあることを意味します。

A、B、C が音声レコードであるとします。

A は:

また、B と C も同じ長さです。

各フレームをクラスター化するのではなく、各フレームブロックをクラスター化します (私の例では、1 つのグループに 70 フレームがあります)。

JavaでK-Meansを使用して実装するにはどうすればよいですか?

java algorithm cluster-analysis k-means

2011-05-28T22:30:18.100

0 投票する

1 に答える

809 参照

java - K-Means で各クラスターの新しい平均を見つけるにはどうすればよいですか?

K-means アルゴリズムでは、各クラスターのリスト変数があります。各クラスターの新しい平均を見つけるにはどうすればよいですか?

java algorithm k-means

2011-05-29T12:56:59.673

0 投票する

1 に答える

9503 参照

algorithm - k-means のように、各クラスターから共分散行列を計算する方法は?

私はどこでも検索してきましたが、cov(xi, xj) のように、あるベクトルから別のベクトルへの共分散行列を作成する方法しか見つけられませんでした。私が混乱していることの 1 つは、クラスターから共分散行列を取得する方法です。各クラスターには多くのベクトルがあります。それらを1つの共分散行列に入れる方法。助言がありますか？？

情報：

input : クラスタ内のベクトル, Xi = (x0,x1,...,xt), x0 = { 5 1 2 3 4} --> 列ベクトル

(実際には、ベクトルごとに 12 の係数を持つ MFCC 特徴ベクトルであり、k-means、8 クラスターでクラスター化した後、各クラスターの共分散行列を取得して、ガウス混合モデルの共分散行列として使用したい)

algorithm k-means

2011-05-30T02:32:19.283

0 投票する

3 に答える

2054 参照

distance - ドキュメントの K-means アルゴリズムを使用したクラスタリング

2 つのドキュメント間の距離を計算するにはどうすればよいですか? 数値の k-means では、2 点間の距離を計算する必要があります。余弦関数が使えることを知りました。RSS ドキュメントをクラスタリングしたい。ステミングを実行し、ドキュメントからストップワードを削除しました。各ドキュメントの単語の頻度を数えました。そして今、k-mean アルゴリズムを実装したいと思います。

distance documents k-means

2011-05-31T15:58:09.577

問題タブ [k-means]

Reference