CSV形式の要点としてここにアップロードしたデータセットがあります。これは、YouGov の記事「How good is 'good'?」で提供されている PDF の抽出された形式です。. 0 (非常に否定的) から 10 (非常に肯定的) のスコアで単語 (「完璧」、「悪い」など) を評価するよう求められた人々。つまり、すべての単語 (列: Word) について、0 から 10 までのすべてのランキング (列: カテゴリ) の投票数 (列: 合計) が保存されます。
私は R の知識が不足しているので、通常は matplotlib と Python を使用してデータを視覚化しようとしますが、ggridge は Python で行うよりもはるかに優れたプロットを作成できるようです。
使用:
library(ggplot2)
library(ggridges)
YouGov <- read_csv("https://gist.githubusercontent.com/camminady/2e3aeab04fc3f5d3023ffc17860f0ba4/raw/97161888935c52407b0a377ebc932cc0c1490069/poll.csv")
ggplot(YouGov, aes(x=Category, y=Word, height = Total, group = Word, fill=Word)) +
geom_density_ridges(stat = "identity", scale = 3)
私はこのプロットを作成することができました (これはまだ完全にはほど遠いです):
美学を微調整しなければならないという事実を無視して、私が苦労していることが 3 つあります。
- 単語を平均ランクで並べ替えます。
- 尾根を平均ランクで色付けします。
- または、カテゴリの値によって尾根に色を付けます。つまり、さまざまな色を使用します。
このソースからの提案を適応させようとしましたが、データの形式が間違っているように見えるため、最終的に失敗しました: 投票の単一のインスタンスではなく、各カテゴリの集計された投票数が既にあります。
基準 3 ( source )
を満たす、このプロットに近い結果になることを願っています。