私はスパム Twitter アカウントの非常に大規模でまばらなデータセットを持っており、さまざまな変数 (tweets_count、フォロワー数/フォロー数) の分布 (ヒストグラム、kde など) と cdf を視覚化できるようにするには、x 軸をスケーリングする必要があります。等)。
> describe(spammers_class1$tweets_count)
var n mean sd median trimmed mad min max range skew kurtosis se
1 1 1076817 443.47 3729.05 35 57.29 43 0 669873 669873 53.23 5974.73 3.59
このデータセットでは、値 0 が非常に重要です (実際には 0 の密度が最も高くなるはずです)。ただし、対数スケールでは、これらの値は無視されます。値を例えば 0.1 に変更することも考えましたが、10^-1 人のフォロワーを持つスパム アカウントが存在することは意味がありません。
では、python と matplotlib での回避策は何でしょうか?