1

biomaRtを使用して90kを超えるプローブIDのリストを遺伝子シンボルに変換しようとしていますが、問題が発生しています。getBM関数を使用すると、対応する遺伝子シンボルが22kしかないことがわかりますが、出力は長さ22kのベクトルであり、最初のプローブIDリストへの対応を確認できません。getBMlistを使用すると、一致しないプローブに指定されたna値を含む出力を取得できますが、この関数は、getBMlistが大きなリスト用ではないという警告メッセージを表示します。90kの遺伝子シンボルとna値の出力を取得するにはどうすればよいですか?

4

1 に答える 1

3

プローブ ID と遺伝子シンボル間のマッピングを取得するには、biomaRt 属性にプローブ ID を含める必要があります。

以下は、アジレントのマイクロアレイを使用していくつかの作業で行った方法です。

genes<-c("A_23_P10060", "A_23_P10091", "A_23_P103951", "A_23_P10525", "A_23_P105732", "A_23_P10605", "NM_005325")

library(biomaRt)
ensembl<-useMart("ensembl", dataset="hsapiens_gene_ensembl")

ensembl.id<-grep("ENST", genes, value=T)
agilent.df<-getBM(attributes = c("hgnc_symbol","efg_agilent_wholegenome_4x44k_v1"), filters=c("efg_agilent_wholegenome_4x44k_v1"),values=genes, mart=ensembl)

genes<-merge(x = as.data.frame(genes),y =  agilent.df, by.y="efg_agilent_wholegenome_4x44k_v1", all.x=T, by.x="genes")

同じプロセスを順を追って説明する非常に優れたbiomaRt チュートリアルがあります。このコードを実行すると、1 つのプローブに hgnc_symbol の "" が含まれていることがわかります。これは、アンサンブル マートに存在するが指定された遺伝子シンボルがないためです。

于 2015-07-01T15:22:14.233 に答える