RNAseq から fastq raw ファイルをダウンロードして、遺伝子発現値を取得したいと考えています。ただし、GEO は .bed.gz および .wig.gz 形式のみを提供します。RPKM 値を取得するにはどうすればよいですか? どうもありがとうございました!
1 に答える
0
RPKMを計算するには、BAM/SAM または CRAM ファイルに含まれる(マップされた)生の読み取りが必要です。Wiggle、BED、および bigWiggle などの派生物は、カバレッジ (主にプロットに使用) のみを含む圧縮バージョンです。つまり、RPKM (またはその方法の FPKM/TPM) をカウントして計算するために必要な読み取り情報が失われています。
標準的なアプローチは、bam ファイルから開始し、関心のある領域の読み取りカウントを抽出し、RPKM などを計算することです。このような多くのパイプラインがあります。
Bam ファイルが利用できない場合、GEO は通常、bam ファイルを取得するためのマッピングの基礎として、少なくとも生の fastq ファイル (または fastq に変換できる sra ファイル) を持っています。ArrayExpress も見てください。GEO をミラーリングしているため、そのプロジェクトの生ファイルを持っている可能性があります。
たぶん、警告の言葉として、差次的発現分析を行う場合は、RPKM 値ではなく生のカウントから行う必要があります。
于 2016-09-30T15:57:40.933 に答える