r - 何が簡単ですか？マージまたはインジケーター変数？

Question

調査したいデータセットが2つあります。1つ目は、さまざまな「細胞状態」が与えられた遺伝子/ゲノム関連データです。データの2番目のセットは、遺伝子を生物学的経路に関連付けます。私の質問はリレーショナルデータベースの質問だと思います。'あるデータフレームに関連するデータを表示し、別のデータフレームに関連付けるにはどうすればよいですか。言い換えれば、私は細胞状態データをグラフ化し、それを経路とそれらの特定の遺伝子に関連付けたいと思っています。（写真ではそう思います。）dataframe1 - affymetrix遺伝子チップ 遺伝子、cell-state1、cell-state2 ... gene1、x1、y1、 ... gene2 、x2、y2、... 遺伝子からのデータ.x、... ... "1"

"遺伝子" "log_b" "log_b_rich" "Fc_cdt_rich_tot" "fc_Etoh_CDT_tot_mono" "fc_Etoh_CDT_tot_poly" "fc_Etoh_CDT_mono_poly" "fc_Etoh_Rich_tot_mono" "fc_Etoh_Rich_tot_poly" "fc_Etoh_Rich_mono_poly" "2" "PHF13" -2.712616698 -1.47923545 -0.791138043 -0.549610558 0.143808182 0.69341874 0.320812876 1.089260116 0.76844724
" 3 " " SPSB1 "-1.808348454 -1.965601198 -1.349135752 -0.780105329 0.410647447 1.190752776 0.587287796 1.260350195 0.673062399 dataframe2

- kegg dbpathway1
、gene-x1、gene-x2、...
pathway2、gene-y1、gene-y2、..からのデータ.pathway3
、gene-z1、...

"1 " " KEGG_GLYCOLYSIS_GLUCONEOGENESIS " " PHF13 ""LDHB" "LDHA" "PGAM1" "ADH1C" "PGAM2" "ADH1B" "ADH1A" "ACSS2" "PDHB" "ACSS1" "PGAM4" "PDHA2" "PDHA1" "LDHAL6B" "PFKL" "LDHAL6A" "FBP1 "" PFKP "" ALDH3B2 "" FBP2 "" PFKM "" ALDH3B1 "" PGM2 "" G6PC "" ALDH7A1 "" ALDH1B1 "" PKM2 "" PGM1 "" DLD "" PKLR "" ALDH9A1 "" ALDOA "" ALDOC "" ALDOB "" ADH5 "" HK2 "" HK1 "" ADH6 "" ADH7 "" ALDH3A2 "" G6PC2 "" ALDH3A1 "" GALM "" TPI1 "" AKR1A1 ""ADH4" "HK3" "ALDH1A3" "ENO2" "ENO3" "GAPDH" "ENO1" "BPGM" "DLAT" "PCK2" "PCK1" "GPI" "GCK" "ALDH2" "PGK1" "PGK2"
"2 " " KEGG_CITRATE_CYCLE_TCA_CYCLE " " PHF13 " " OGDHL "" OGDH "" PDHB "" IDH3G "" LOC283398 "" IDH2 "" IDH1 "" PDHA2 "" PDHA1 "" SUCLA2 "" FH "" DLST "" ACO2 "" SUCLG2 "" ACO1 "

" PHF13 "が強調表示され、各ステップでの関連性が示されます。"ENO3" "GAPDH" "ENO1" "BPGM" "DLAT" "PCK2" "PCK1" "GPI" "GCK" "ALDH2" "PGK1" "PGK2" "2" "KEGG_CITRATE_CYCLE_TCA_CYCLE" "PHF13" "OGDHL" "OGDH "" PDHB "" IDH3G "" LOC283398 "" IDH2 "" IDH1 "" PDHA2 "" PDHA1 "" SUCLA2 "" FH "" DLST "" ACO2 "" SUCLG2 "" ACO1 " " PHF13 "は、それぞれの関連性を示すために強調表示されていますステップ。"ENO3" "GAPDH" "ENO1" "BPGM" "DLAT" "PCK2" "PCK1" "GPI" "GCK" "ALDH2" "PGK1" "PGK2" "2" "KEGG_CITRATE_CYCLE_TCA_CYCLE" "PHF13" "OGDHL" "OGDH "" PDHB "" IDH3G "" LOC283398 "" IDH2 "" IDH1 "" PDHA2 "" PDHA1 "" SUCLA2 "" FH "" DLST "" ACO2 "" SUCLG2 "" ACO1 " " PHF13 "は、それぞれの関連性を示すために強調表示されていますステップ。"ALDH2" "PGK1" "PGK2" "2" "KEGG_CITRATE_CYCLE_TCA_CYCLE" "PHF13" "OGDHL" "OGDH" "PDHB" "IDH3G" "LOC283398" "IDH2" "IDH1" "PDHA2" "PDHA1" "SUCLA2" "FH 「DLST」「ACO2」「SUCLG2」「ACO1」「PHF13」が強調表示され、各ステップでの関連性が示されます。"ALDH2" "PGK1" "PGK2" "2" "KEGG_CITRATE_CYCLE_TCA_CYCLE" "PHF13" "OGDHL" "OGDH" "PDHB" "IDH3G" "LOC283398" "IDH2" "IDH1" "PDHA2" "PDHA1" "SUCLA2" "FH 「DLST」「ACO2」「SUCLG2」「ACO1」「PHF13」が強調表示され、各ステップでの関連性が示されます。PDHA2 "" PDHA1 "" SUCLA2 "" FH "" DLST "" ACO2 "" SUCLG2 "" ACO1 " " PHF13 "は、各ステップでの関連性を示すために強調表示されています。PDHA2 "" PDHA1 "" SUCLA2 "" FH "" DLST "" ACO2 "" SUCLG2 "" ACO1 " " PHF13 "は、各ステップでの関連性を示すために強調表示されています。

私がやりたいのは、「cell-state1」が「cell-state2」とは異なる遺伝子/経路を（in-）活性化するかどうかを確認することです。さらに、特定の経路のセル状態1と2の間の相関（t検定およびおそらくグラフ化）をテストしたいと思います。

私の質問は、どのコマンドまたはメソッドでこれを最も簡単/効率的に実行できるかということです。マージするか、ダミー変数を使用するか。

HTH

score 0 · Accepted Answer

私がやりたいことは、「cell-state1」が「cell-state2」とは異なる遺伝子経路を (in-) 活性化するかどうかを確認することです。

これは、因子分析が必要なように思えます。それについては、 statistics.stackexchange.comの善良な人々に尋ねることができます。

r - 何が簡単ですか？マージまたはインジケーター変数？

1 に答える 1

Related

Reference