問題タブ [k-means]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
14903 参照

data-mining - K-MeansアルゴリズムでKを最適化する方法

重複の可能性:
k-meansクラスタリングを使用する場合、kを決定するにはどうすればよいですか?

データについて知らない場合、最初にKを選択するにはどうすればよいですか?

誰かがKを選ぶのを手伝ってくれませんか。

ありがとうNavin

0 投票する
2 に答える
6173 参照

java - 再構成誤差を計算する方法は?

再構成誤差の計算方法とそれに関する情報はどこにありますか? (K-means アルゴリズムの後でデータの再構成エラーを計算します)

0 投票する
4 に答える
7521 参照

python - PythonのL1距離のkmeans

numpy マトリックスとして NxM 特徴ベクトルが与えられます。L1 距離 (マンハッタン距離) を使用して Kmeans アルゴリズムでクラスター化できるルーチンはありますか?

0 投票する
4 に答える
18085 参照

python - 文字列にK-meansアルゴリズムを使用できますか?

私は、RNA構造の進化を研究するPythonプロジェクトに取り組んでいます(たとえば、「(((...)))」の文字列で表され、括弧は塩基対を表します)。重要なのは、私には理想的な構造と、理想的な構造に向かって進化する人口があるということです。私はすべてを実装しましたが、「バケットの数」、つまり各世代の母集団で最も代表的なk個の構造を取得できる機能を追加したいと思います。

k-meansアルゴリズムを使用することを考えていましたが、文字列での使用方法がわかりません。scipy.cluster.vqを見つけましたが、私の場合の使用方法がわかりません。

ありがとう!

0 投票する
5 に答える
18151 参照

machine-learning - K-Meansアルゴリズム

重複の可能性:
K-MeansアルゴリズムでKを最適
化する方法k-meansクラスタリングを使用するときにkを決定するにはどうすればよいですか?

統計的尺度に応じて、Kを決定できます。標準偏差、平均、分散などのように、または

K-meansアルゴリズムでKを選択する簡単な方法はありますか?

よろしくお願いしますNavin

0 投票する
4 に答える
6096 参照

r - 行列が非常に大きいK-means

非常に巨大なマトリックス(100Gbを超える約300.000x100.000の値)でk-meansクラスタリングを実行する必要があります。Rソフトウェアを使用してこれまたはwekaを実行できるかどうかを知りたいです。私のコンピューターは、8GbのRAMと数百Gbの空き容量を備えたマルチプロセッサーです。

計算に十分なスペースがありますが、そのようなマトリックスのロードはRの問題のようです(bigmemoryパッケージを使用しても、十分なスペースがない場合は、すべてのRAMとスワップファイルを自動的に使用するのに役立つとは思いません)。

だから私の質問は:どのソフトウェアを使うべきか(最終的には他のパッケージやカスタム設定と組み合わせて)です。

私を助けてくれてありがとう。

注:私はLinuxを使用しています。

0 投票する
1 に答える
452 参照

python - Pythonで配列内のオブジェクトを出力するにはどうすればよいですか?

データセットに対して k-means クラスタリングを実行するコードを書いています。私は実際に、O'Reilly 著の Collective Intelligence という本のコードを使用しています。すべてが機能しますが、彼のコードではコマンドラインを使用しており、メモ帳++ですべてを書きたいと思っています。参考までに彼のセリフは

これが私のコードです:

0 投票する
2 に答える
1080 参照

cluster-analysis - ベクトル空間モデルで表現された類似文書を返すためのアルゴリズム

約 30,000 ドキュメントの tf-idf ベクトルを含む DB があります。

特定のドキュメントに対して、類似したドキュメントのセット (約 4 つ) を返したいと考えています。

データに K-Means (クラスタリング アルゴリズム) を (コサイン類似度を使用して) 実装することを考えましたが、多くの不確実性があるため、それが最良の選択であるかどうかはわかりません。作成するクラスターの数がわからない、クラスターのバランスが崩れすぎるのではないかと心配している、結果の品質が良いかどうかわからない、など。

経験豊富なユーザーからのアドバイスやヘルプは大歓迎です。

ありがとうございました、

ケイティ

0 投票する
3 に答える
6398 参照

k-means - 自己組織化マップと k-means

自己組織化マップ (SOM) が k-means と比較してどれだけ優れているか知っている人はいますか? 私は通常、RGB などの色空間を信じていますが、視覚的に異なる色の間で色空間に重複があるため、SOM は色をクラスター化するためのより良い方法です ( http://www.ai-junkie.com/ann/som/ som1.html )。k-means が SOM より優れている場合はありますか?

ありがとう!

0 投票する
7 に答える
25721 参照

python - クラスターの数を知らずにKmeans?

高次元データ ポイント (約 50 次元) のセットに k-means を適用しようとしていますが、最適な数のクラスターを見つける実装があるかどうか疑問に思っていました。

アルゴリズムが一般的にこれを行う方法は、クラスター間距離が最大化され、クラスター内距離が最小化されるということをどこかで読んだことを覚えていますが、どこで見たのか覚えていません。誰かがこれについて議論しているリソースを教えてくれれば幸いです. 現在、k-means に SciPy を使用していますが、関連するライブラリも問題ありません。

同じアルゴリズムまたはより優れたアルゴリズムを実現する別の方法がある場合は、お知らせください。