csv形式の表に次の遺伝子情報があります。
1 1 1 2 2 2
1415670_at 1 365.1 293.4 288.9 394.5 312 381.6
1415671_at 2 556.1 584.2 567.8 592.8 471.6 513.1
1415672_at 3 1048.3 763.1 1074.9 852.3 826.1 898.3
1415673_at 4 60.8 51.7 51.6 224 248.4 150.7
1415674_at 5 129.1 107.2 230.4 175.5 250.5 172.4
http://www-stat.stanford.edu/~tibs/SAM/で入手可能なSAMforExcelを実行して おり、結果は次のとおりです。
Positive genes (3)
Row Gene ID Gene Name Score(d) Numerator(r) Denominator(s+s0) Fold Change q-value(%)
5 1415673_at 4 2.539689902 153 60.24357537 1.14E+46 0
2 1415670_at 1 0.707325294 46.9 66.30612588 1.31313E+14 0
6 1415674_a_at 5 0.574118361 43.9 76.46506883 1.64141E+13 0
私が使用しているパラメーターは次の図にあります。
次のプログラムでRにsamRを使用する場合:
filename<-"test.csv"
y <- c(1,1,1,2,2,2)
m <- read.csv(filename,sep=",",row.names=1)
t <- as.matrix(m)
samfit <- SAM(t, y, resp.type="Two class unpaired",
nperms=100, testStatistic=c("standard"),
knn.neighbor=10, random.seed=1234567, logged2=TRUE)
print(samfit)
rownames(m)[ as.numeric( samfit$siggenes.table$genes.up[ , "Gene Name"]) ]
rownames(m)[ as.numeric( samfit$siggenes.table$genes.lo[ , "Gene Name"]) ]
結果ははるかに異なります。
Call:
SAM(x = t, y = y, resp.type = "Two class unpaired", nperms = 100,
testStatistic = c("standard"), knn.neighbors = 10, random.seed = 1234567,
logged2 = TRUE)
Genes up
Gene ID Gene Name Score(d) Numerator(r) Denominator(s+s0)
[1,] g5 5 1.173 115.375 98.348
[2,] g4 4 0.877 107.867 122.948
Fold Change q-value(%)
[1,] 5.38686075651057e+34 0
[2,] 2.95870863324773e+32 0
Genes down
NULL
rownames(m)[ as.numeric( samfit$siggenes.table$genes.up[ , "Gene Name"])]
[1] "1415674_a_at" "1415673_at"
rownames(m)[ as.numeric( samfit$siggenes.table$genes.lo[ , "Gene Name"])]
character(0)
これは巨大なデータセットで悪化します、誰かが理由を知っていますか?
フォーマットされていないデータは次のとおりです。
,,1,1,1,2,2,2
1415670_at,1,365.1,293.4,288.9,394.5,312,381.6
1415671_at,2,556.1,584.2,567.8,592.8,471.6,513.1
1415672_at,3,1048.3,763.1,1074.9,852.3,826.1,898.3
1415673_at,4,60.8,51.7,51.6,224,248.4,150.7
1415674_a_at,5,129.1,107.2,230.4,175.5,250.5,172.4
ログに記録されていないデータでも試してみましたが、SAMとsamRの結果は引き続き異なります。