r - 有益なヒストグラムを作成するために「プロット」を使用して不均一なビンを取得するために、引数が適切に適合するR

Question

私はRを初めて使用します。膨大な量のデータ（最小値が「1」で最大値がデータごとに異なる数百万の正の数）の累積頻度ヒストグラム（不均一ビン）をプロットしようとしていますインスタンス 1*10^6 または 1*10^5)。この単純なコードを使用して、データのヒストグラムを生成しました。

例: -サンプルデータ

[89601]     10      2      2      4      3     12      3     25     25      2
[89611]      5      5      5      2     23     22     14      8     13     10
[89621]     13     19    157      2      3      2      4      2      3     33
[89631]     22      2     14      9      2      3      3      3      8      2
[89641]      8      3      2    127      8      2     18      2      4      2
[89651]      2     13      3     34      8      2      6     10      3      7
[89661]      3      9      7      3     36      9      5      2     10     15
[89671]      7      2     23      2      2      2      2      7      6     25
[89681]      3      3      2      6     37     49     28     11      3     35
[89691]      2      2      8      3      3      2      2      4      3     12
[89701]      3      5      2      7      3      2     15      6      3     14
[89711]     13      5      3      2      2      8     34      4      4     65
[89721]      5      9     12      2     11      2      2     79      9     13
[89731]      2     66      2      9     10     22     11      2      6      3
[89741]     12      2     11      5      4      4      2      4      3      4
[89751]      2      8      9      3      2      2     84      7     11     10
[89761]      8     30     16      3     63      2      2     24     13      2
[89771]     11     37      2      9     21     21     10      2      2     49
[89781]      3      3      8      5      2     19      9      6      5      4
[89791]      4      2      9      2     10     33      5      4      2      2
[89801]      4      2      2      4      9      3     11      2      5    142
[89811]     17      2     11      4      2      8     26      2      9      8
[89821]     10      2      4      2      5      2     20      7    145     11
[89831]     22     19      8     14     18     39      3      2      3      3
[89841]      2     11     10      3      2      3      3      5      6     12
[89851]     17      5      3      8      2      2      2      2      2      5
[89861]      4      2     13      3      2      2      2      2      3      2
[89871]      4      3     21      2      6      2      8      9      7     14
[89881]      2    582      3     15     11      3     20     16      9      8
[89891]      6      2      6      7      3     20     17      2      9      5
[89901]      5     11      2     12      7      2     46      2    144      9
[89911]      2      3     36     25      3      2     16      2      2    119
[89921]      5      5     10      6      2      2      6     84     13      2
[89931]      2      6      6      2     17      3      7      4    102     48

data <- read.table("sample.txt", header=FALSE)
data <- hist(data$V1, breaks=length(data$V1), xlim=c(0,4000000))
plot(data)

これを行ったときに、x 軸にすべてのデータ (正の数) と y 軸にカウントを含むヒストグラムを取得できました。次に、x の制限を関心のある領域までのみ変更しました

plot(data, xlim=c(0,200000))

ヒストグラムがプロットされる前と同様ですが、「プロット」を使用すると、ビンの数を定義できなかったため、ヒストグラムが明確ではなく(なりたいバーとは異なります)、有益です。

私はこのフォーラムに初めて参加したため、画像をアップロードする方法がわかりません。そのため、ヒストグラムを提供できませんでした。

どんな提案でも非常に役に立ちます。

score 0 · Accepted Answer

ヒストグラムをプロットするには、次のように hist() 関数を使用できます。

    hist(data$V1, xlim=c(0,200000), breaks=100)

休憩パラメーターは、プロットされるバーの数を示します。ただし、この数値は、指定した xlim ではなく、すべてのプロットに関連しています。したがって、最初は指定された数のブレークでヒストグラムを作成し、その後、必要なプロットの部分をカットします。

しかし、バーをプロットする別の方法があります。

    data <- read.table("sample.txt", header=FALSE)
    data.hist <- hist(data$V1, breaks=length(data$V1), xlim=c(0,4000000))
    plot(data.hist$counts, type='h')

hist 関数は、ヒストグラムパラメーターを表すオブジェクトを返します。「カウント」フィールドに興味があると思います。type='h' を定義することで、ヒストグラムのような方法でこの情報をプロットできます。

r - 有益なヒストグラムを作成するために「プロット」を使用して不均一なビンを取得するために、引数が適切に適合するR

1 に答える 1

Related

Reference