0

一連の ASCII 文字として表示される FASTQ 品質スコアがあります。この場合、(おそらく) ASCII 文字 64 から 126 は 0 から 62 のスコアを表します (イルミナであると仮定します)。これにより、基になるシーケンスが発生します。

feffefdfbefdfffcfdeTddaYddffbfcI`S_KKX_]]MR[D_TY[VTVXQ]`Q_BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB

ASCII文字の数を抽出するにはどうすればよいですか?

ありがとうサン

編集: このシーケンスは、塩基 (文字 (ATGC) を意味する核酸の塩基対から) で構成される生物学的シーケンスの品質を示します。基本品質は、-10 log10 Pr{base is wrong} に等しい phred スケールの基本エラー確率です。

4

1 に答える 1

6

Marek が言ったように、Bioconductor でイルミナの品質スコアを変換する関数が見つかるかもしれません。biostar.stackexchange.comで質問できます。

基本関数を使用すると、次を使用できますcharToRaw()

> x <- "feeffdbefc`\\KKX]_BBBB"
> charToRaw(x)
 [1] 66 65 65 66 66 64 62 65 66 63 60 5c 4b 4b 58 5d 5f 42 42 42 42
> as.numeric(charToRaw(x))
 [1] 102 101 101 102 102 100  98 101 102  99  96  92  75  75  88  93  95  66  66  66  66
> as.character(charToRaw(x))
 [1] "66" "65" "65" "66" "66" "64" "62" "65" "66" "63" "60" "5c" "4b" "4b" "58" "5d" "5f" "42" "42" "42" "42"

バックスラッシュをエスケープする必要があることに注意してください。そうしないと、問題が発生します。それは、データの読み取り方法などによって異なります。

于 2011-02-17T13:48:39.287 に答える