原則として、マイクロアレイデータは、サンプルを列、行を遺伝子とするマトリックスとして表現できます (しゃれを許してください)。実際には、実験の生データのこのような表現を導き出すのは、かなり複雑です。前処理されたデータセットを取得しただけでは、生データが他の実験と比較できるように処理されたという保証や、元の生データが十分に高品質であったという保証はほとんどありません。
また、データ マトリックスから何らかの意味を引き出すには、高品質のメタデータが必要になります。サンプルが得られた生物学的条件とソースは何ですか? 使用した特定のアレイ上のプローブは、どの遺伝子に対応していますか? (9890_at は「プローブセット ID」であり、特定の配列設計の分子プローブの一意の識別子であり、遺伝子にマッピングする必要があることに注意してください。同じ遺伝子に対する異なるプローブは、まったく同じ応答を与えません。)
したがって、公共のマイクロアレイ データベースは、処理されたデータ マトリックスに加えて、多くの追加情報を提供します。すでに言及されているGEOに加えて、より優れた検索インターフェイスを備えたArrayExpressをお勧めします。
多くの人にとってマイクロアレイデータを操作するための選択ツールは、統計プログラミング言語R用のバイオコンダクターソフトウェアスイートです。
Bioconductor は、両方のリポジトリから付随するメタデータを含む生データをダウンロードするための API を提供します。GEO bioc パッケージ とArrayExpress biocパッケージを参照してください。
どちらのパッケージも、ほとんどのバイオコンダクター ソフトウェアと同様に、ソフトウェアを紹介する優れた「ビネット」が付属しています:
GEO bioc vignetteおよび
Arrayexpress bioc vignette
これらのビネットは、生データを取得し、生データから「Eset」(式セット) を導出する例も提供する必要があります。その時点で、バイオコンダクター Eset オブジェクトの遺伝子発現マトリックスにアクセスでき、必要なメタデータを調べるためのオブジェクトと API を取得できます。
マイクロアレイにはさまざまな種類があることに注意してください。おそらく最も簡単な分析 API を備えている Affymetrix アレイからのデータから始めることをお勧めします。