問題タブ [hierarchical-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - scipy で樹状図を剪定する (階層的クラスタリング)
約 5000 エントリの距離マトリックスがあり、scipy の階層的クラスタリング メソッドを使用してマトリックスをクラスター化します。これに使用するコードは次のスニペットです。
デンドログラムは、このすべてのデータでかなり密になるため、truncate_mode を使用して少し刈り込みます。これはすべて機能しますが、元の 5000 エントリのどれが樹状図の特定のブランチに属しているかを調べるにはどうすればよいでしょうか。
使ってみた
葉のリストを取得しますが、これはリンケージ出力を indata として使用し、枝刈りされた樹状図と葉リストの間の対応を確認できますが、元のエントリを樹状図に手動でマッピングするのは少し面倒です。
要約すると、枝刈りされた樹状図の枝に属する距離行列のすべての元のエントリをリストする方法はありますか? または、私が気付いていないこれを行う他の方法があります。
ありがとう
python - scipy デンドログラムを TreeView ファイルに出力する
この投稿に基づいて、pylab と scipy を使用して式マトリックスから階層クラスター ヒートマップとデンドログラムを出力する python スクリプトを作成しました: plotting results of hierarchy clustering ontop of a matrix of data in python
ここで、配列と遺伝子 (列と行) のデンドログラムをテキスト ファイルにエクスポートして、TreeView プログラムでもこのデータ (cdt、gtr、atr ファイルなど) を表示できるようにしたいと考えています。誰もこれを経験していますか?
ありがとう
java - WEKA HierarchicalClusterer クラスは常に 2 つのクラスターを返します
これが私のコードです:
これで、distancefucntion メソッドも変更しても、生成されるクラスター数の出力は常に 2 になります。どのクラスターのどのインスタンスかを知るにはどうすればよいですか? インスタンスの分布を取得するために記述された上記のコードのコメントを外すと、ArrayOutOfBound 例外が発生します。
しかし、一般的に、ここでWEKAによって階層的にクラスタリングがどのように行われるかを説明できる人はいますか?
長さ10、次元2のデータセットは次のとおりです。
python - scipy-clusterの各クラスターの中心に最も近い代表を選択するにはどうすればよいですか?
したがって、基本的には、Pythonモジュールのscipy-clusterを使用して多くのデータポイントをプロットします。しきい値が与えられた場合に各クラスターの代表を与える方法/関数、または必要な代表の数はありますか?理想的には、各代表者は、それが属するクラスターの中心に最も近い距離を持っている必要があります。
編集:各クラスターの重心に最も近いデータポイントを探しています。
r - R の hclust からテキスト内の木構造を抽出する
需要予測プロジェクトの範囲内で、トップダウン予測アルゴリズムを適用できるように、互いに類似している時系列をグループ化する最良の方法を決定したいと考えています。現時点での私の主な質問は、適切なグループとは何か、それらのグループの適切な階層は何かを判断することです。いくつか読んだ後、Dynamic Time Warping が役立つ可能性があると思います。これをテストするために、小さなテスト ケースを作成しましたが、1 つの問題に直面しています。これは、たとえばテキスト ツリーなどで階層を抽出する方法です。多分あなたの一人が私をさらに助けてくれることを願っています。
私が得たものを示すために、次のケースを作成しました。
どういうわけか、クラスターの名前とメンバーをテキストで取得して、引き続き作業できるようにしたいと思います。誰でもアイデアはありますか?
ありがとう!
python - 距離行列の並列構築
私は大量の多次元ベクトルに対する階層的凝集クラスタリングに取り組んでいますが、最大のボトルネックは距離行列の構築であることに気付きました。このタスクの単純な実装は次のとおりです (ここでは Python)。
このルーチンにいくつかの並列処理を追加する最良の方法はどれだろうと考えていました。簡単な方法は、外側のループを分割して多数のジョブに割り当てることです。たとえば、プロセッサが 10 個ある場合、さまざまな範囲の 10 個の異なるジョブを作成しi
、結果を連結します。ただし、この「水平」ソリューションはまったく正しくないようです。このタスク用の他の並列アルゴリズム (または既存のライブラリ) はありますか? どんな助けでも大歓迎です。
java - 凝集クラスタリングのための R のカスタム距離メトリック
Rで凝集クラスタリング用のカスタム距離関数を定義することは可能ですか? また、特定の条件が満たされない場合に 2 つのクラスターがマージされないようにしたいと考えています。これはRで可能ですか?
また、RがHadoopに置かれた場合、これらすべてを行うことは可能ですか?
machine-learning - サポートベクターマシンを凝集クラスター装置と組み合わせて使用することは可能ですか?
どういうわけか、クラスタリングアルゴリズムと組み合わせてサポートベクターマシンを使用することは可能ですか?両方が相互に通信する必要があるユースケースの例は何ですか?
r - rでのクラスタープレゼンテーション樹状図の代替
樹状図は非常に人気があることを私は知っています。ただし、観測値とクラスが非常に多い場合は、追跡するのが困難です。しかし、同じことを提示するためのより良い方法があるはずだと感じることもあります。アイデアは浮かびましたが、実装方法がわかりません。
次の樹状図を考えてみましょう。
散布図のようにプロットできます。2点間の距離が線でプロットされ、散在するクラスター(想定されるしきい値)が色付けされ、円のサイズがいくつかの変数の値によって決定されます。
r - クラスター分析(階層)でグループ情報を知る方法は?
クラスター分析(階層クラスター)のグループについて問題があります。例として、これはアヤメのデータセットを完全に連結した樹状図です。
私が使用した後
これは出力です:
ある統計 Web サイトで、データ内のオブジェクト 1 は常にグループ/クラスター 1 に属することを読みました。上記の出力から、setosaがグループ 1に属していることがわかります。では、残りの 2 種についてどうやって知るのでしょうか。どのようにしてグループ 2 または 3 に分類されるのか。おそらく私が知る必要がある計算がありますか?