1

データセット (列 1 = 遺伝子名、列 2 = 発現値) を使用しており、クラスター プロットを実行しようとしていますが、列の遺伝子 ID ではなく行番号で枝がラベル付けされていることがわかりました。 1.

データセット: https://dl.dropbox.com/u/364456/miRNA.csv

使用:

attach(animals)
d=dist(as.matrix(animals))
hc=hclust(d)
plot(hc)

結果のプロット:

ここに画像の説明を入力

kmeans クラスタリングを実行しようとしましたが、最終的にこのエラーが発生しました。

強制によって導入された NA。

これは、データ ファイルを正しくフォーマットしていないことを示しています。

ここで何が起こっているか知っている人はいますか?

4

2 に答える 2

4

hclust遺伝子名を正しいラベル名として認識するためには、この列が行名でなければなりません。

問題: 遺伝子mmu-miR-191が 2 回表示され、行名を繰り返すことができません。両方の行の値が同じであることを考慮して、重複していると仮定して 2 番目の行を消去します。

read.table("miRNA.csv", sep=",", header=TRUE, row.names=1) -> mirna
mirna[-34,] -> mirna  # Delete the redundant row.
row.names(mirna) <- mirna[,1] # Declare column 1 as the row names
dist(as.matrix(mirna)) -> d # And then your routine
hc <- hclust(d)
plot(hc)

ここに画像の説明を入力

于 2012-07-31T13:48:29.507 に答える