数週間、次のスクリプトを使用して、約 10,000 (ゼロ以外、正) のデータポイントを含む散布図を作成しました。変換に関する警告のため、含まれていないデータポイントはわずか (<20) です。
visual <- ggplot(data=dots, aes(GRNHLin, REDHLin)) +
geom_point(colour=rgb(0.17, 0.44, 0.71), size=0.500, alpha=0.250) +
scale_x_log10(breaks = trans_breaks("log10", function(x) 10^x),
labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e4)) +
scale_y_log10(breaks = trans_breaks("log10", function(x) 10^x),
labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e3))
visual
今週から、モデルベースのクラスタリングを行いたいと思っています。私が書いたスクリプト (以下を参照) は、同じデータセット (10,000 個のゼロ以外の正のデータポイント) を使用していますが、次の理由により、9,000 個を超えるデータポイントを除外しています。
Warning messages:
1: In self$trans$transform(x) : NaNs produced
2: Transformation introduced infinite values in continuous x-axis
3: In self$trans$transform(x) : NaNs produced
4: Transformation introduced infinite values in continuous y-axis
5: Removed 9692 rows containing missing values (geom_point).
これは 2 番目のスクリプトです。
dots.Mclust <- Mclust(dots, modelNames="VVV", G=8)
visual <- fviz_cluster(dots.Mclust,
ellipse=FALSE,
shape=20,
geom = c("point")) +
scale_x_log10(breaks = trans_breaks("log10", function(x) 10^x),
labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e3)) +
scale_y_log10(breaks = trans_breaks("log10", function(x) 10^x),
labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e4))
visual
編集
いくつかの追加情報:
データセットには、0 より大きい値のみが含まれます。Head(dots.Mclust) は次を提供します。
$data
GRNHLin RED2HLin
[1,] 81.50364 176.379654
[2,] 57.94751 116.310577
[3,] 42.89310 119.758621
[4,] 41.82213 275.607971
[5,] 437.14648 141.309647
[6,] 15.20952 177.128616
[7,] 18.88731 257.249207
[8,] 768.64935 172.374069
[9,] 24.66220 118.283150
[10,] 17.12160 68.955154
[11,] 73.00019 71.517052
[12,] 1182.08911 180.694122
[13,] 320.09827 224.808563
[14,] 268.42401 235.375259
[15,] 149.05655 205.708282
[16,] 98.43160 152.093704
[17,] 25.10120 177.061386
[18,] 293.87103 239.007050
[19,] 118.42249 295.722168
[20,] 724.16718 243.950455
[21,] 255.26083 128.209717
[22,] 105.15983 247.946701
[23,] 86.25691 220.004745
[24,] 122.01743 32.232780
[25,] 50.42104 9.923141
x 軸と y 軸のスケーリングを削除した後のグラフは次のようになります。どうやら、データポイントで何か問題が発生しています。データセットには負の値はありませんが、まだ 0 未満の (多くの) ポイントがあります。さらに、x 軸と y 軸はエントリ [12,] にある値をカバーしていません。これがおそらく問題の根本的な原因です。しかし、この間違った値の問題はどのように発生するのでしょうか?
ここでの根本的な問題は何ですか?