関数が0.8から2.2の範囲の特定の値をとる発生の数を数えるヒストグラムがあります。
値のセットの累積分布関数を取得したいと思います。それぞれの特定の値までの発生の総数を数えるだけで正しいですか?
たとえば、0.9の累積分布関数は0.8から0.9までのすべての出現の合計になりますか?
それが正しいか?
ありがとうございました
関数が0.8から2.2の範囲の特定の値をとる発生の数を数えるヒストグラムがあります。
値のセットの累積分布関数を取得したいと思います。それぞれの特定の値までの発生の総数を数えるだけで正しいですか?
たとえば、0.9の累積分布関数は0.8から0.9までのすべての出現の合計になりますか?
それが正しいか?
ありがとうございました
エントリ数で正規化された合計により、CDF の推定値が得られます。ヒストグラムがpdfの正確な表現であるのと同じくらい正確になります。ビンのエンドポイント以外の場所で cdf を評価する場合は、カウントの一部を含めるのが理にかなっています。そのため、ブレーク ポイント b_i と b_j がある場合、ある点 b_i < p < b_j で cdf を評価するには、次のようにする必要があります。関連するセルからのカウントの分数 (p - b_i) / (b_j-b_i) を追加します。基本的に、これはセル内の密度が均一であることを前提としています。
基になる値から cdf の推定値を取得することもできます (質問に基づいて、そのビンがヒストグラムまたは実際の値でカウントされるかどうかにかかわらず、アクセスできるものはよくわかりません)。そうすることで、各データ ポイントで CDF の不連続性 (ステップ) が得られることに注意してください。そのため、これが適切かどうかを判断するには、十分な量があるかどうか、および CDF を何に使用しているかを検討してください。
警告の最後のメモとして、観測値の範囲外で cdf を評価すると、0 または 1 の推定確率が得られることに注意してください (x<0.8 の場合は 0、x>2.2 の場合は 1)。関数が本当にその間隔に制限されているかどうかを検討する必要があります。制限されていない場合は、平滑化を使用して、観測値の範囲外の少量の確率質量を確保する必要があります。