問題タブ [k-means]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
7521 参照

python - PythonのL1距離のkmeans

numpy マトリックスとして NxM 特徴ベクトルが与えられます。L1 距離 (マンハッタン距離) を使用して Kmeans アルゴリズムでクラスター化できるルーチンはありますか?

0 投票する
4 に答える
18085 参照

python - 文字列にK-meansアルゴリズムを使用できますか?

私は、RNA構造の進化を研究するPythonプロジェクトに取り組んでいます(たとえば、「(((...)))」の文字列で表され、括弧は塩基対を表します)。重要なのは、私には理想的な構造と、理想的な構造に向かって進化する人口があるということです。私はすべてを実装しましたが、「バケットの数」、つまり各世代の母集団で最も代表的なk個の構造を取得できる機能を追加したいと思います。

k-meansアルゴリズムを使用することを考えていましたが、文字列での使用方法がわかりません。scipy.cluster.vqを見つけましたが、私の場合の使用方法がわかりません。

ありがとう!

0 投票する
5 に答える
18151 参照

machine-learning - K-Meansアルゴリズム

重複の可能性:
K-MeansアルゴリズムでKを最適
化する方法k-meansクラスタリングを使用するときにkを決定するにはどうすればよいですか?

統計的尺度に応じて、Kを決定できます。標準偏差、平均、分散などのように、または

K-meansアルゴリズムでKを選択する簡単な方法はありますか?

よろしくお願いしますNavin

0 投票する
4 に答える
6096 参照

r - 行列が非常に大きいK-means

非常に巨大なマトリックス(100Gbを超える約300.000x100.000の値)でk-meansクラスタリングを実行する必要があります。Rソフトウェアを使用してこれまたはwekaを実行できるかどうかを知りたいです。私のコンピューターは、8GbのRAMと数百Gbの空き容量を備えたマルチプロセッサーです。

計算に十分なスペースがありますが、そのようなマトリックスのロードはRの問題のようです(bigmemoryパッケージを使用しても、十分なスペースがない場合は、すべてのRAMとスワップファイルを自動的に使用するのに役立つとは思いません)。

だから私の質問は:どのソフトウェアを使うべきか(最終的には他のパッケージやカスタム設定と組み合わせて)です。

私を助けてくれてありがとう。

注:私はLinuxを使用しています。

0 投票する
1 に答える
452 参照

python - Pythonで配列内のオブジェクトを出力するにはどうすればよいですか?

データセットに対して k-means クラスタリングを実行するコードを書いています。私は実際に、O'Reilly 著の Collective Intelligence という本のコードを使用しています。すべてが機能しますが、彼のコードではコマンドラインを使用しており、メモ帳++ですべてを書きたいと思っています。参考までに彼のセリフは

これが私のコードです:

0 投票する
2 に答える
1080 参照

cluster-analysis - ベクトル空間モデルで表現された類似文書を返すためのアルゴリズム

約 30,000 ドキュメントの tf-idf ベクトルを含む DB があります。

特定のドキュメントに対して、類似したドキュメントのセット (約 4 つ) を返したいと考えています。

データに K-Means (クラスタリング アルゴリズム) を (コサイン類似度を使用して) 実装することを考えましたが、多くの不確実性があるため、それが最良の選択であるかどうかはわかりません。作成するクラスターの数がわからない、クラスターのバランスが崩れすぎるのではないかと心配している、結果の品質が良いかどうかわからない、など。

経験豊富なユーザーからのアドバイスやヘルプは大歓迎です。

ありがとうございました、

ケイティ

0 投票する
3 に答える
6398 参照

k-means - 自己組織化マップと k-means

自己組織化マップ (SOM) が k-means と比較してどれだけ優れているか知っている人はいますか? 私は通常、RGB などの色空間を信じていますが、視覚的に異なる色の間で色空間に重複があるため、SOM は色をクラスター化するためのより良い方法です ( http://www.ai-junkie.com/ann/som/ som1.html )。k-means が SOM より優れている場合はありますか?

ありがとう!

0 投票する
7 に答える
25721 参照

python - クラスターの数を知らずにKmeans?

高次元データ ポイント (約 50 次元) のセットに k-means を適用しようとしていますが、最適な数のクラスターを見つける実装があるかどうか疑問に思っていました。

アルゴリズムが一般的にこれを行う方法は、クラスター間距離が最大化され、クラスター内距離が最小化されるということをどこかで読んだことを覚えていますが、どこで見たのか覚えていません。誰かがこれについて議論しているリソースを教えてくれれば幸いです. 現在、k-means に SciPy を使用していますが、関連するライブラリも問題ありません。

同じアルゴリズムまたはより優れたアルゴリズムを実現する別の方法がある場合は、お知らせください。

0 投票する
1 に答える
385 参照

algorithm - ファジー c-means と人工蜂コロニー アルゴリズムを使用したジョブ マッチング

ABC アルゴリズムによって最適化されたファジー c-means を使用して、ジョブのリストをクラスター化する必要があります。これらのアルゴリズムを一緒に適用する例はありますか??

助けてくれてありがとう...

0 投票する
2 に答える
46787 参照

python - k平均の分散測定のパーセンテージを計算していますか?

ウィキペディアのページ では、k-means でクラスターの数を決定するためのエルボ法が説明されています。scipy の組み込みメソッドは実装を提供しますが、彼らがそれを呼び出すときの歪みがどのように計算されるかを理解しているかどうかはわかりません。

より正確には、クラスターによって説明される分散のパーセンテージをクラスターの数に対してグラフ化すると、最初のクラスターは多くの情報を追加します (多くの分散を説明します) が、ある時点で限界ゲインが低下し、グラフ。

関連する重心を持つ次の点があると仮定すると、この尺度を計算する良い方法は何ですか?

私は特に、点と重心だけを指定して 0.94.. 測定値を計算することを検討しています。scipy の組み込みメソッドのいずれかを使用できるかどうか、または自分で作成する必要があるかどうかはわかりません。多数のポイントに対してこれを効率的に行う方法について何か提案はありますか?

要するに、私の質問(関連するすべて)は次のとおりです。

  • 距離行列と、どの点がどのクラスターに属しているかのマッピングが与えられた場合、エルボー プロットを描画するために使用できる尺度を計算する良い方法は何ですか?
  • コサイン類似度などの異なる距離関数を使用すると、方法論はどのように変化しますか?

編集 2: 歪み

最初のポイント セットの出力は正確です。ただし、別のセットを試すと:

kmeansデータセット内のポイントの総数で値を割っているように見えるため、最後の値は一致しないと思います。

編集 1: パーセント分散

これまでの私のコード (Denis の K-means 実装に追加する必要があります):

k=2 の場合の出力は次のとおりです。

私の実際のデータセットで(私には正しく見えません!):