2

私はたくさんのヒストグラムを扱っています。特に、これらのヒストグラムは、ヒトゲノム上のセグメントに沿ったベースコールのものです。

x軸に沿った各ポイントは、DNAを構成する4つの窒素塩基(A、C、T、G)の1つであり、y軸は、塩基が「呼び出された」(またはシーケンサーによって認識された)回数を表します。機械、ゲノムを配列決定するために、それは単にゲノムに沿った各塩基の同一性を決定している)。

これらのヒストグラムの多くは、プラトーのような領域から0または(ほぼ0)に低下するほぼ線形のドロップオフ(マシンが十分な読み取り深度を取得できない場合)を表示します。スコアがゼロに下がると、シーケンサーがベースのIDを判別できないことを意味します。以前に二重らせんを見たことがある場合は、シーケンサーがらせんのラングの半分の識別を理解できないことを意味します。ゲノムの特定の領域は、他の領域よりも特徴づけるのが困難です。100以上のオーダーのベースコールの数が多いベース(またはxデータポイント)は、明確に識別できます。たとえば、1つのベースに対して合計250の呼び出しがあり、248のTが呼び出され、1つのGが呼び出され、1つのAが呼び出された場合、Tと呼びます。近隣の地域から、低読み取り地域のアイデンティティが何であるかを推測する必要があります。これらのプロットにこの傾向を反映するスコアを割り当てるための簡単なアルゴリズムはありますか?組織の例については、box.net / shared/nbygq2x03uを参照してください。

4

1 に答える 1

1

読み取り深度が0の場合のベース数のカウントを使用できます...その線の傾きも有用な指標になる可能性があります(急な負の傾き=プラトーからの低下)。

于 2011-03-11T16:32:35.927 に答える