2

PCR 増幅プロセス中に塩基のミスマッチが発生する可能性のある DNA アンプリコンがあります。私の興味は、塩基あたりのエラー率、ミスマッチの数、およびアンプリコンの塩基数を考慮して、シーケンスにエラーが含まれる確率はどのくらいかということです。

[Cummings, SM et al (2010)]という記事に出くわしました。集団遺伝子解析における PCR、クローニング、シーケンシング エラーのソリューション。保全遺伝学、11(3)、1095–1097。doi:10.1007/s10592-009-9864-6] は、このような場合に確率質量関数を計算する式を提案しています。

ここに画像の説明を入力

ここに示すように、Rを使用して式を実装しました

pcr.prob <- function(k,N,eps){
  v = numeric(k)
  for(i in 1:k) {
    v[i] = choose(N,k-i) * (eps^(k-i)) * (1 - eps)^(N-(k-i))
    }
  1 - sum(v)
}

この記事から、30 サイクルの PCR を使用して 800 bp のアンプリコンを分析し、1.85e10-51 サイクルあたり 1 塩基あたりの誤取り込みを行い、最も類似した配列とは異なる10各 bp のユニークな配列を発見したことを示唆しています。33 つの独立した PCR エラーによって新しい配列が生成される確率は に等しくなりP = 0.0011ます。

ただし、数式の実装を使用すると、別の値が得られます。

pcr.prob(3,800,0.0000185)
[1] 5.323567e-07

実装で何が間違っている可能性がありますか? 私は何かを誤解していますか?

ありがとう

4

1 に答える 1

2

彼らは正しい数値 (0.00113) を持っていると思いますが、彼らの論文ではうまく説明されていません。

あなたがやりたい計算は次のとおりです。

pbinom(3, 800, 1-(1-1.85e-5)^30, lower=FALSE)

つまり、それぞれが 1.85e-5 の確率でうまくいかない 30 の増幅があるとすると、800 の独立した塩基で 3 つ未満の修飾が見られる確率はどれくらいか。つまり、30回正しいままではない確率を計算しています。

やや統計的ですが、動く価値があるかもしれません…</p>

これについてさらに考えてみると、ここで非常に小さな確率で作業すると、浮動小数点の不正確さが見られるようになります。つまり、 a の絶対値が約 1e-10 未満になると、小さい数値はどこにあるのかがおかしくなり始めます1-x。この時点で、対数確率を使用することは良い考えです。具体的には、この関数は非常に役立ちます。使用:xxlog1p

pbinom(3, 800, 1-exp(log1p(-1.85e-5)*30), lower=FALSE)

エラーの組み込み率が非常に低い場合でも、引き続き機能します。

于 2013-11-07T13:12:46.937 に答える