まず、これはこの質問に対して間違ったフォーラムである可能性があります。これは R+Bioconductor 固有のものです。ここに私が持っているものがあります:
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
現在、cd4T は、19794 行 (プローブセット) と 15 列 (サンプル) の大きな行列をラップする ExpressionSet オブジェクトです。最後の行は、対応する遺伝子シンボルを持たないすべてのプローブセットを取り除きます。問題は、このセットのほとんどの遺伝子が複数のプローブセットに割り当てられていることです。あなたはこれを見ることができます
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
したがって、私の 19794 個のプローブセットのうち 6897 個だけが固有のプローブセット -> 遺伝子マッピングを持っています。各遺伝子に関連する各プローブセットの発現レベルをどうにかして組み合わせたいと思います。各プローブの実際のプローブ ID はあまり気にしません。私のダウンストリーム分析はすべてこのクラスで動作するように設計されているため、マージされた情報を含む ExpressionSet を最終的に作成したいと考えています。
これを手動で行うコードを書き、新しい式セットをゼロから作成できると思います。しかし、これは新しい問題ではなく、遺伝子発現レベルを組み合わせるための統計的に正しい方法を使用して、それを実行するためのコードが存在すると思います。これにも適切な名前があると思いますが、私のグーグルはあまり役に立ちません。誰でも助けることができますか?