問題タブ [hierarchical-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R の spacl パッケージを使用したスパース クラスタリング
sparcl
Witten と Tibshirani が論文に基づいて作成したパッケージを使用しています。
Witten DM and R Tibshirani (2010) クラスタリングにおける特徴選択のフレームワーク。アメリカ統計学会誌 105(490): 713-726
関数の下の例を調べますHierarchicalSparseCluster
:
ここで確認するdim(sparsehc$dists)
と、4950 と 50 が返されます。シミュレーションの設定から、 と がわかりましn=100
たp=50
。また、マニュアルによると、戻り値dists
はdata matrixの(n*n)xpx
非類似度マトリックスです。4950 ではなく 100*100=10000 であるべきであるため、明らかに行の次元は n*n ではありません。どうもありがとうございました!
machine-learning - 映画のジャンルのクラスタリング
私はデータ マイニングの分野の初心者であり、ジャンル グループを見つけるために映画データ セットをクラスタリングしたいと考えています。私のデータセットには、86 本の映画に対して 26 の異なるジャンルがあります。映画を 26 ではなくいくつかのジャンルにグループ化するために、クラスタリングを採用したいと考えています。たとえば、クラスタリング アルゴリズムを実行した後、4 つのクラスタまたはデータ セットに最適な小さなカウントが残ります。データセットを次のように定義しました M1 { G1,G2,.....G26} M2{G1,G2,.....G26} ここで、各ジャンル G1,....,G26 が値を保持できます0 または 1 のいずれかで、0 は不在、1 は存在します。次のステップは、その上で k-means クラスターを実行することです。ピアソン相関係数などに適切な距離関数を使用したいと考えています。
実験には MATLAB を使用しています。k=3,4,5,6 を使用して k-Means を実行してみました。また、階層的クラスタリングも実行しました。
どのクラスタリング結果が優れているかを判断する方法がわかりません。それを確認する方法は?私は初心者なので、MATLAB でバイナリ機能のクラスターをプロットする方法がわかりません。また、ピアソン相関係数をk-Meansの距離メトリックとして使用する方法も知りません。助けてください。
matlab - 階層的クラスタリングを行って樹状図を作成するときに、MATLABで個別の切断されたツリーを表示するにはどうすればよいですか?
私はで作業しMATLAB
ており、隣接行列があります。
完全に接続されていません。ノード{1,2,5}
は接続されており、{3,4,6}
接続されています(エッジが方向付けられています)。
単一のプロットの樹状図に別々のクラスターを表示したいと思います。あるクラスターから次のクラスターへのパスがないため、クラスターごとに別々のルートを持つ別々のツリーを表示したいと思います。私はコマンドを使用しています:
これらのコマンドは、階層的クラスタリングからアドバイスされています。そして、結果が添付されます:imageDendrogram。ラベルが意味をなさないことを除けば、ツリー全体が接続されており、データの切断された性質を反映するいくつかの切断されたツリーを作成する方法を理解しています。多くの互いに素なクラスターを持つ可能性のあるより大きなデータセットで作業したいので、複数のプロットを避けたいと思います。
python - 元のデータをクラスター化されたデータと相関させるにはどうすればよいですか
距離行列は、次のようなペアワイズ要素の距離行列を表します。
クラスタリングのように配列を入力します
私のfcluster出力は、他の人の以前のポスターからの[4 10 12 1 5 13 2 11 1 7 8 3 14 6 10 16 9 15 1 7]のようなものです。scipyによる クラスタリング-距離行列によるクラスター、元のオブジェクトを取り戻す方法
出力T[i]は、クラスター内の要素の数のみを示していることを理解しています。元の要素A、B、C、D、E .....要素をクラスターの結果および樹状図とリンクするにはどうすればよいですか?そしてそれらを私の図に適切にラボします。
python - Pythonで階層デンドラグラムのティックをリンクする方法は?
階層クラスタリングからのプロットがあります。x ティックは、クラスタリング後の観測インデックスです。インデックス番号のリストを表示する代わりに、インデックスにリンクされた元の観測名をリンクできるように、ラベルを追加するにはどうすればよいですか (例: [11, 6 ,18, 3 5, 12....])。ヒストグラムの場合、インデックスは常に 1,2,3...4 になるため、文字列のリストを介してラベルを割り当てることができますが、クラスタリング後のプロットでは観測インデックスが変更されます...できるオブジェクトまたは関数はありますか?使用する?
r - R FactoMineR:クラスターメンバーシップを返します
オブジェクトを作成しHCPC
ました。観測値のリストと、それらがどのクラスターに分類されたかを返したいと思います。これを行うコマンドが見つかりません。誰か知っている?
参考までに、これが私の仕事です:
編集:再現可能な例:
parameters - 入力パラメーターなしのデータのクラスタリング
これはより理論的な問題です。
クラスターの数や近隣のサイズなどの入力パラメーターを必要としないクラスター化アルゴリズム (フラットまたは階層) を知っていますか? つまり、データを入力としてアルゴリズムに送り、クラスターを出力として取得するだけです。
関連する論文/ドキュメントについてアドバイスをいただければ幸いです。
python - Scipy デンドログラム リーフ ラベルの色
Scipy からデンドログラム プロットの葉のラベルに色を割り当てることは可能ですか? ドキュメントからはわかりません。これが私がこれまでに試したことです:
ありがとう。
data-mining - パーティション化されたネットワークのパーティション密度について
Link Communities コミュニティ検出アルゴリズムを実装しています。論文に記載されているパーティション密度の説明がわかりにくい
パーティション密度を定義する部分のみを次に示します。
リンク密度の定義 (式 2) とパーティション密度の定義 (式 3) の間の関係を見つけることができません。そのため、パーティション密度がそのように定義されている理由がわかりません。そして、特に (式 3) が (式 2) の平均を計算する方法がわかりません。平均がある場合、パーティションの数 (c) が (除数で) 水平線より下になると予想されます。
パーティション密度の他の定義をググることはできませんでした。
それに光を当てることができる人なら誰でも大歓迎です。
email - メールの件名をメール スレッドにまとめるには?
メールの件名のみ(他のヘッダーがない) がある場合、それらを一連の「関連メッセージ」にクラスタ化するための適切なアルゴリズム (またはパッケージ) はありますか?
という件名のメール
Our travel plans
おそらく関連している
Re: Our travel plans
とRe: Re: Our travel plans
.
ここまでは良いですが、他にもあります
AW: Our travel plans
Fwd: Our travel plans
Our travel plans (Forward)
それらすべてを 1 つのスレッドにまとめたいと思います。plans
などの件名のメールはRe: Our meeting
、もちろん、そのスレッドに入れるべきではありません。私は階層的な結果を非常によく生かすことができました - 実際、私はそれが好きです。なぜなら、同様の内容のメールが互いに「近づく」可能性が高いと期待していたからです。
だから、私はたくさんのアイデアを持っています: サフィックスマッチング、プレフィックスツリー、レーベンシュタイン距離、Q-Gram プロファイル - 多すぎるかもしれません。したがって、私は自問自答します。