r - R + Bioconductor : ExpressionSet でプローブセットを組み合わせる

Question

まず、これはこの質問に対して間違ったフォーラムである可能性があります。これは R+Bioconductor 固有のものです。ここに私が持っているものがあります:

library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]

現在、cd4T は、19794 行 (プローブセット) と 15 列 (サンプル) の大きな行列をラップする ExpressionSet オブジェクトです。最後の行は、対応する遺伝子シンボルを持たないすべてのプローブセットを取り除きます。問題は、このセットのほとんどの遺伝子が複数のプローブセットに割り当てられていることです。あなたはこれを見ることができます

gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897

したがって、私の 19794 個のプローブセットのうち 6897 個だけが固有のプローブセット -> 遺伝子マッピングを持っています。各遺伝子に関連する各プローブセットの発現レベルをどうにかして組み合わせたいと思います。各プローブの実際のプローブ ID はあまり気にしません。私のダウンストリーム分析はすべてこのクラスで動作するように設計されているため、マージされた情報を含む ExpressionSet を最終的に作成したいと考えています。

これを手動で行うコードを書き、新しい式セットをゼロから作成できると思います。しかし、これは新しい問題ではなく、遺伝子発現レベルを組み合わせるための統計的に正しい方法を使用して、それを実行するためのコードが存在すると思います。これにも適切な名前があると思いますが、私のグーグルはあまり役に立ちません。誰でも助けることができますか？

score 2 · Accepted Answer

私は専門家ではありませんが、何年にもわたって見てきたことから、誰もがプローブセットを組み合わせる独自の好みの方法を持っています。私が見た中で最も大規模に使用された 2 つの方法は、発現マトリックス全体で最大の分散を持つプローブセットのみを使用し、もう 1 つはプローブセットの平均を取り、そこからメタプローブセットを作成することでした。 . プローブセットのより小さなブロックでは、人々がプローブセットごとのプロットを見て何が起こっているのかを知ることを含むより集中的な方法を使用するのを見てきました...一般的に何が起こるかというと、1つのプローブセットが「良い」ものであることが判明し、残りはあまり良くありません。

これを行うための一般化されたコードは見たことがありません。例として、私たちのラボで最近気づいたのですが、私たちの何人かはこれと同じことを行うための独自のプライベート関数を持っています。

score 0 · Accepted Answer

あなたが探している単語は、 R Genefilter パッケージの ' nsFilter'です。この関数は 2 つの主要なものを割り当てます。entrez 遺伝子IDのみを検索し、残りのプローブセットは除外されます。entrez id に複数のプローブセットがある場合、最大値が保持され、その他は削除されます。これで、一意の entrez 遺伝子 ID マップマトリックスが作成されました。お役に立てれば。

r - R + Bioconductor : ExpressionSet でプローブセットを組み合わせる

2 に答える 2

Related

Reference