だから私は以下の例としてサンプリングした大量のデータを持っています:
Sequence Abundance Length
CAGTG 3 25
CGCTG 82 23
GGGAC 4 25
CTATC 16 23
CTTGA 14 25
CAAGG 9 24
GTAAT 5 24
ACGAA 32 22
TCGGA 10 22
TAGGC 30 21
TGCCG 25 21
TCCGG 2 21
CGCCT 22 24
TTGGC 4 22
ATTCC 4 23
ここでは各シーケンスの最初の 4 語のみを示していますが、実際には「長さ」の長さです。ここにある各サイズ クラスのシーケンスの豊富さを調べています。さらに、特定のシーケンスがそのサイズ クラス内で表す存在量の割合を視覚化したいと考えています。現在、次のような積み上げ棒グラフを作成できます。
ggplot(tab, aes(x=Length, y=Abundance, fill=Sequence))
+ geom_bar(stat='identity')
+ opts(legend.position="none")
これは、このような小さなデータ セットでは問題ありませんが、実際のデータ セットには約 170 万行あります。それは非常にカラフルに見え、特定の配列が 1 つのサイズのクラスで過半数の存在量を保持していることがわかりますが、非常に乱雑です。
そのシーケンスの豊富さによって、各サイズの色付きの積み上げバーを注文できるようにしたいと思います。つまり、スタック内で存在量が最も多いバーが各スタックの一番下にあり、存在量が最も少ないバーが一番上にあります。そうすれば、より見栄えがよくなるはずです。
ggplot2 でこれを行う方法についてのアイデアはありますか? aes() に「順序」パラメーターがあることは知っていますが、私が持っている形式のデータをどう処理すべきかわかりません。