問題タブ [hierarchical-clustering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R プロットのラベル サイズを変更する方法
データからクラスター プロットを作成しています。プロット全体が完成しましたが、ラベル テキストが大きすぎて、プロットを適切に読み取ることができません。ラベルを小さくする方法を考えている人。
パッケージ「sparcl」を使用しています。私の機能は次のとおりです。
ご覧のとおり、ブランチのテキストが大きすぎて、互いに重なり合っています。葉のテキストを 25% 小さくしたい。私はすでにSparclパッケージのドキュメントを見ましたが、うまくいかないようです。
database - 対極クラスタリング
フォトモザイクスクリプト(PHP)を作りました。このスクリプトには 1 つの写真があり、それを小さな写真の集合写真に変更します。遠くから見ると本物の写真のように見えますが、近づくとすべて小さな写真であることがわかります。固定ピクセル数の正方形を取り、その正方形の平均色を決定します。次に、これを数千枚の写真の平均色を含むデータベースと比較します。利用可能なすべての画像で色距離を決定します。ただし、このスクリプトを完全に実行するには数分かかります。
ボトルネックは、メインの絵の一部に最高の絵を合わせることです。私はこれを減らす方法をオンラインで検索しており、クロス「Antipole Clustering」にたどり着きました。もちろん、この方法を自分で使用する方法に関する情報を見つけようとしましたが、どうすればよいかわかりません。
2 つのステップがあります。1. データベースの取得と 2. フォトモザイクの作成。これがすべて明確になったら、ステップ 1 から始めましょう。多分私はステップ2を自分で理解しています。
ステップ1:
データベースの各画像を 3x3 グリッドに配置された 9 つの等しい長方形に分割します
各長方形の RGB 平均値を計算する
27 個の成分 (長方形ごとに 3 つの RGB 成分) で構成されるベクトル x を作成します。
x はデータ構造内の画像の特徴ベクトルです
さて、ポイント 1 と 2 は簡単ですが、ポイント 3 ではどうすればよいでしょうか。27 個の成分 (9 * R 平均、G 平均、B 平均) からベクトル X を構成するにはどうすればよいですか?
そして、ベクトルの構成に成功したら、このベクトルで次のステップは何をすべきか.
ピーター
hierarchical-clustering - GRGPF クラスタリング アルゴリズムの実装
Ganti et.al にあるクラスタリング アルゴリズムを実装するソースを探しています。「任意のメトリック空間での大規模なデータセットのクラスター化」。特に、クラスター化しようとする大規模なデータの問題があり (したがって、これはワンパス クラスターの問題です)、スペースにバイナリ演算子がありません (そのため、要素間の「平均」要素を見つけることはオプションではありません)。
私は言語にとらわれません (単純な I/O メカニズムの方が好きですが)。
何かご意見は?
r - Rを使用する子のラベルに基づいて樹状図の各ノードにラベルを付ける方法
Rに樹状図があり、各葉に値があります。子の値を合計して、各ノードの値を定義するのが好きです。私はdendrapplyに精通していますが、関数内のノードの子にアクセスする方法と、関数を再帰的に記述する方法がわかりません。
開始するコードは次のとおりです。
r - hclust で生成されたデンドログラムに対する pvclust
pvclust R パッケージを使用して、R の通常の階層的クラスタリング hclust 関数を使用して生成したクラスターの重要性を判断することに興味があります。4 つの発生時点での ~ 8000 の遺伝子とその発現値で構成されるデータマトリックスがあります。以下のコードは、データに対して通常の階層クラスタリングを実行するために使用するものを示しています。私の最初の質問は: hr.dendrogram プロットを取得して、それを pvclust に適用する方法はありますか? 第二に、pvclust は列をクラスター化するようであり、私がやりたいように行ではなく列全体で比較されるデータにより適しているようです (遺伝子ではなくサンプルをクラスター化するために pvclust が使用される多くの例を見てきました)。私がやりたいことと同様の方法で pvclust を使用した人はいますか? 通常の階層クラスタリングの簡単なコードは次のとおりです。
これについて何か助けていただければ幸いです!
python - Python に距離行列を取る優れた階層的クラスタリング パッケージはありますか?
ペアごとのレーベンシュタイン距離で構成される距離行列があります。私はscikits-learnを使用していました。しかし、階層的クラスタリング アルゴリズムは、クラスタリングの入力として距離行列を取りません。だから私はこれを行うことができる新しいパッケージを検索する必要があります.
階層クラスタリングに使用した、高速で十分にテストされたパッケージはありますか?
cluster-analysis - テキスト ファイルを .arff 形式に変換するにはどうすればよいですか (weka)
1000 txt ファイルのデータ クラスタリングを行いたいので、テキスト ファイルを .arff 形式 (weka) に変換する方法を教えてください。
よろしく
r - 階層/マルチレベルデータのブートストラップ(クラスターのリサンプリング)
cats
データセット(-MASS-
パッケージから)からブートストラップサンプルを作成するためのスクリプトを作成しています。
Davidson and Hinkleyの教科書[1]に従って、単純な線形回帰を実行し、iid観測からのブートストラップ、つまりペアのリサンプリングに基本的なノンパラメトリック手法を採用しました。
元のサンプルは次の形式です。
単変量線形モデルを通じて、猫の炉床重量を脳重量で説明したいと思います。
コードは次のとおりです。
ここで、クラスタリング変数が存在するとしますcluster = 1, 2,..., 24
(たとえば、各猫は特定の同腹子に属しています)。簡単にするために、データのバランスが取れていると仮定します。クラスターごとに6つの観測値があります。したがって、24匹の同腹子のそれぞれは、6匹の猫(すなわちn_cluster = 6
、n = 144
)で構成されています。
次の方法で偽のcluster
変数を作成できます。
関連する質問が2つあります。
(クラスター化された)データセット構造に従ってサンプルをシミュレートする方法は?つまり、クラスターレベルでリサンプリングする方法は?置換を使用してクラスターをサンプリングし、選択した各クラスター内の観測値を元のデータセットと同じように設定します(つまり、クラスターを置換してサンプリングし、各クラスター内の観測値を置換せずにサンプリングします)。
これは、Davidson(p。100)によって提案された戦略です。B = 100
サンプルを描画するとします。それらのそれぞれは、24のおそらく再発するクラスター(たとえばcluster = 3, 3, 1, 4, 12, 11, 12, 5, 6, 8, 17, 19, 10, 9, 7, 7, 16, 18, 24, 23, 11, 15, 20, 1
)で構成されている必要があり、各クラスターには、元のデータセットの同じ6つの観測値が含まれている必要があります。でそれを行う方法はR
?(パッケージの有無にかかわらず-boot-
。)続行するための代替案はありますか?
2番目の質問は、初期回帰モデルに関するものです。クラスターレベルの切片を使用した固定効果モデルを採用するとします。採用したリサンプリング手順は変わりますか?
[1] Davidson、AC、Hinkley、DV(1997)。ブートストラップ法とその応用。ケンブリッジ大学出版局。
python - マイクロアレイ階層的クラスタリングとPythonによるPCA
マイクロアレイ列の階層的クラスタリング(個々のマイクロアレイ複製からの結果)とPCAを使用して、マイクロアレイデータを分析しようとしています。
私はPythonを初めて使用します。私はpython2.7.3、biopyhton、numpy、matplotlib、networkxを持っています。
これを行うために使用できるPythonまたはbiopython(MATLABのclustergramおよびmapcaplotに類似)の関数はありますか?
java - 階層クラスタリングで数値属性を認識できないのはなぜですか?
Java、Weka、および IP アドレスをいじっています。現在、データセットを使用して階層的クラスタリングを実行しようとしています: ソースと宛先の IPv4 (10 進数に変換) とプロトコル - すべて Wireshark ログから受信しました。
アドレスとプロトコルをリストに保持し、手動でデータセットを構築します
データからランダムなインスタンスを印刷すると、すべて問題ないことがわかります。ただし、クラスタリングの出力には、プロトコルに関する情報しかありません。例(ほんの一部です)。
クラスタ 1 ((MSNMS:0,MSNMS:0):0,MSNMS:0)
デバッグオプション付きの出力は次のようなものです
マージ 0 4 0.0 0.0
マージ 0 5 0.0 0.0
合流 1 7 0.0 0.0
私は何か間違ったことをしていますか、それとも...このようなデータセットをクラスタリングするという全体的な考えはばかげていますか?