2

私の質問を見ていただきありがとうございます。私はこの宿題の問題を解こうとしています。

ランダム読み取りによるゲノム配列決定の問題を考えてみましょう。G が配列全体の長さ、L が読み取りの長さ、n が読み取りの数である場合、カバレッジは nL/G として定義されます。では、元の長いシーケンスの 50% を少なくとも 1 つのフラグメントでカバーしたい場合、どのくらいのカバー率が必要でしょうか?

Lander-Waterman http://www.genetics.wustl.edu/bio5488/lecture_notes_2005/Lander.htmモデルを読んで概念を理解しました。しかし、この問題を解決する方法がよくわかりませんでした。与えられた 50% を確率と見なし、y を 1 (ポアソン分布からのもの) と見なし、ラムダ (つまりカバレッジ) を計算すると考えました。しかし、私は正しい軌道に乗っているとは思いません。元の長いシーケンスの 50% が少なくとも 1 つのフラグメントでカバーされるという質問があるため、y を 1 と見なすことにしました。これは、これらの塩基が少なくとも 1 回配列決定されることを意味します。

私は間違っているかもしれません。

専門家の方、ご案内いただけますでしょうか。

ありがとうございました。

4

2 に答える 2

1

私はあなたが今のところオフではないと思います。私が読んだように、y = 1は、塩基が「少なくとも1回」ではなく「正確に1回」読み取られることを意味します。P(y=1) + P(y=2) + ... に等しい 0.5 の確率でカバレッジを計算する必要があります。

于 2011-12-08T10:29:25.237 に答える
1

それを連続的な問題として見て (n が大きく、L が G よりもはるかに小さい)、各読み取りの配置が完全にランダムであると仮定すると、追加の各読み取りが無駄になる可能性は、既存のカバレッジに比例します。 . これは、次の計算につながります。

d(coverage)/d(n) = (L/G) * (1 - coverage)

これは宿題なので、解決策は読者の演習として残しておきます。(ただし、これは実際に微積分を使用してCSの問題を解決するまれなケースであることを指摘したいと思います8 ^)


n=0 でカバレッジ=0 から開始して上記の方程式を解くと、次の結果が得られます。

   ln(1 - coverage) = - (L/G) * n
-> coverage = 1 - exp(- (L/G) * n)

現実の確認として、これが表示されることを期待する必要があることに注意してください。サンプリングが本当にランダムである場合、G の覆われていない部分は、放射性元素のように指数関数的に減衰するはずです。

于 2011-12-08T02:07:23.317 に答える