0

数週間、次のスクリプトを使用して、約 10,000 (ゼロ以外、正) のデータポイントを含む散布図を作成しました。変換に関する警告のため、含まれていないデータポイントはわずか (<20) です。

visual <- ggplot(data=dots, aes(GRNHLin, REDHLin)) +
    geom_point(colour=rgb(0.17, 0.44, 0.71), size=0.500, alpha=0.250) +
    scale_x_log10(breaks = trans_breaks("log10", function(x) 10^x),
                  labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e4)) +
    scale_y_log10(breaks = trans_breaks("log10", function(x) 10^x),
                  labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e3))
visual

今週から、モデルベースのクラスタリングを行いたいと思っています。私が書いたスクリプト (以下を参照) は、同じデータセット (10,000 個のゼロ以外の正のデータポイント) を使用していますが、次の理由により、9,000 個を超えるデータポイントを除外しています。

Warning messages:
1: In self$trans$transform(x) : NaNs produced
2: Transformation introduced infinite values in continuous x-axis 
3: In self$trans$transform(x) : NaNs produced
4: Transformation introduced infinite values in continuous y-axis 
5: Removed 9692 rows containing missing values (geom_point). 

これは 2 番目のスクリプトです。

dots.Mclust <- Mclust(dots, modelNames="VVV", G=8)

visual <- fviz_cluster(dots.Mclust, 
             ellipse=FALSE, 
             shape=20, 
             geom = c("point")) +
  scale_x_log10(breaks = trans_breaks("log10", function(x) 10^x),
                labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e3)) +
  scale_y_log10(breaks = trans_breaks("log10", function(x) 10^x),
                labels = trans_format("log10", math_format(10^.x)), limits = c(1,1e4))
visual

編集

いくつかの追加情報:

データセットには、0 より大きい値のみが含まれます。Head(dots.Mclust) は次を提供します。

$data
           GRNHLin    RED2HLin
   [1,]   81.50364  176.379654
   [2,]   57.94751  116.310577
   [3,]   42.89310  119.758621
   [4,]   41.82213  275.607971
   [5,]  437.14648  141.309647
   [6,]   15.20952  177.128616
   [7,]   18.88731  257.249207
   [8,]  768.64935  172.374069
   [9,]   24.66220  118.283150
  [10,]   17.12160   68.955154
  [11,]   73.00019   71.517052
  [12,] 1182.08911  180.694122
  [13,]  320.09827  224.808563
  [14,]  268.42401  235.375259
  [15,]  149.05655  205.708282
  [16,]   98.43160  152.093704
  [17,]   25.10120  177.061386
  [18,]  293.87103  239.007050
  [19,]  118.42249  295.722168
  [20,]  724.16718  243.950455
  [21,]  255.26083  128.209717
  [22,]  105.15983  247.946701
  [23,]   86.25691  220.004745
  [24,]  122.01743   32.232780
  [25,]   50.42104    9.923141

x 軸と y 軸のスケーリングを削除した後のグラフは次のようになります。どうやら、データポイントで何か問題が発生しています。データセットには負の値はありませんが、まだ 0 未満の (多くの) ポイントがあります。さらに、x 軸と y 軸はエントリ [12,] にある値をカバーしていません。これがおそらく問題の根本的な原因です。しかし、この間違った値の問題はどのように発生するのでしょうか?

プロット後のグラフ (x 軸と y 軸のスケーリングなし)。

ここでの根本的な問題は何ですか?

4

1 に答える 1