問題タブ [frequency-distribution]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
203 参照

c++ - 間隔内の数値の頻度をカウントするための効率的なアルゴリズム

線形合同法によって決定された疑似乱数の分布を示す棒グラフを作成する必要があります

区間 [0,1]

例えば:

私はそのような方法を使用しました:

この問題の別の公式な方法を知っていれば、それは簡単ではありません。

0 投票する
1 に答える
360 参照

c++ - 間隔内の数値の頻度をカウントするためのクラス

線形合同法によって決定された疑似乱数の分布を示す棒グラフを作成する必要があります

区間 [0,1]

例: 間隔頻度

このようなプログラムを書きました

lcg.h:

lcg.cpp:

main.cpp:

コンパイルとリントは適切に行われますが、実行したくありません。プログラムの何が問題なのかわかりません。関数 countFrequency と printFrequency に問題があります。しかし、私は何を理解することはできません。多分あなたは知っていますか?

0 投票する
1 に答える
292 参照

python - より多くの集計レベルの分布に一致するように非集計分布をシフトする

本質的に割り当ての問題があります。

私が持っているもの: 国勢調査区のような小さな地理的領域の観測があります。それぞれについて、4 つの異なる年齢層の人数を数えています。各トラクトはサブリージョンに属しています。

これで、小面積の分布が完全に正しいわけではないことがわかりました。なぜなら、より高いレベルの集計、サブリージョン レベル、およびより細かい地域レベルのデータを合計すると、異なるグループの合計が示されるという正しい分布がわかっているからです。

私が望むもの: 4つのグループにまたがるトラクトレベルの非集計分布を調整して、正しいことが知られている4つのグループにまたがるサマリーレベルの分布と一致するようにしたいが、トラクトレベルのシグナルを保持したい分布--つまり、より粗いデータに基づいて調整しますが、ウィンドウから放り出さないでください。

そこで、私がやりたいことは、次の基準を満たして、地域レベルの人口数を余白にシフトすることです。最初の 2 つは最も重要です (これらすべてを満たすことに関してはトレードオフがあることを認識しています)。

  1. 集計すると、サブリージョンの合計と一致する必要があります。
  2. 調整によって地域レベルの個体数が変化してはなりません。
  3. 既存の空間分布は実質的に変更されるべきではありませんが、新しい小地域の合計に従ってわずかに調整されただけです
  4. 理想的には、調整は公平であるべきです。つまり、調整は少数の記録だけでなく、各地域内により分散されるべきです。

以下は、モック データとプレースホルダー コードです。

まず、小領域データ:

そして、これを集計すると、次のsubregionようになります。

(そして、各グループの各サブリージョンの目標シェアを取得しましょう)

第二に、小地域レベルで、小地域のデータを合計するとどうなるか。

これらは、準地域の「既知の」分布です。地区レベルのデータを調整して、地区を集計したときに、各グループのこれらの地域の合計に大まかに一致するようにしたいのはこれらです。具体的にはgrp4subregion A合計で 26,215 になりますが、ターゲットごとに22,000grp4にする必要があるため、サブリージョン A の地区では、他のグループのいくつかに再分類された人物が表示されるはずです。

1 つのアイデアは、各サブリージョン内の区画をサンプリングし、あるビンから別のビンに移動する必要がある人の総数にある程度比例して人を移動することですが、上記の基準を満たす賢い方法があるかどうかはわかりません.

私に問題を引き起こしているのは、主に、記録レベルの合計を維持し、信号として保持したい既存の空間分布を完全に破棄せずに、サブリージョンの合計に一致するようにグループ間で人々を再割り当てする方法を特定することです (しかし、現在知られている異なる全体的な分布に調整されています)。

大まかに言えば、詳細な分布をより集約的な分布に適合させる方法についてのアイデアはありgrp4 -> grp3ますgrp2 -> grp1か?

プレースホルダー コード

この関数は主に、各グループの地域シェアを含むテーブルのルックアップであり、その分布を各トラクトにプッシュするため、データ バインディングを設定する以外は何もしません。

0 投票する
0 に答える
98 参照

python - 分布内で一連の値を見つける確率

2 つの分布 (値のセット) があり、1 つのセットが別のセットに「適合」する確率を知りたいと考えています。このようなもの:

私は何も試しませんでした (確率論が十分にわからないため)、scipy はほとんど使用していません。また、どの分布が適切かはわかりません。データ ポイントは「1 日あたりのクリック数」(一種) です。

編集: dist前月のvaluesクリック数/日、当月のクリック数/日。これが、確率論と数学の知識が不足しているにもかかわらず、私が達成しようとしていることを明確にするのに役立つことを願っています. :)

編集 2:今月はクリック数が 50% 増加しました。前月と今月の 1 日あたりのクリック数を考えると、この増加が偶然によるものである可能性はどれくらいですか?

0 投票する
0 に答える
112 参照

python-2.7 - 2 つのリストから相対頻度を計算する方法

これは私のコードの出力です:

私が理解しようとしているのは、「a」wrt「x」の発生確率です。つまり、計算する必要があります

すべての可能な項目を計算する方法は? 例えば。(b,7)そして((b,z),2)そしてすべて。しかし、(c,4) や ((b,z),2) などのようなケースは必要ありません。

0 投票する
1 に答える
1592 参照

r - R を使用して n 元度数表を作成する

n-way 頻度表を作成するのに助けが必要です。

以下のコードを使用しています。

VAR1、VAR2、VAR3 はすべて因子変数です。これを行うことで、次の表を作成します。

表1

しかし、VAR2 と VAR3 にはいくつかのカテゴリがあるため、「0」の行がたくさんあります。次のように、実際に頻度値を持つ VAR3 のカテゴリの頻度のみを VAR2 のどのカテゴリに保持するために、これらの行を削除する必要があります。

状況を含む最初のテーブルと、目的の出力を含む 2 番目のテーブル

最初に作成したテーブルをサブセット化するか、各 VAR2 カテゴリの VAR3 のすべてのレベルを返すのではなく、実際に頻度があるレベルのみを返す別の関数を使用して、その方法を知っている人はいますか?

0 投票する
0 に答える
515 参照

r - カウントのパーセンテージのR ggplot2プロット曲線

パーセンテージ カーブと 2 つの陰影付きのカーブをプロットして平均値を求めるつもりです。

ggplot2 密度プロットは、Y 軸のカウントのパーセンテージを示していませんでした。

これは同様のプロットです (コードはここにあります!)。

x 軸の範囲の値から範囲の幅 10 のビンでパーセンテージ「曲線」をプロットする方法は?

各曲線の上に丸い番号を示す小さなテキストを追加し、別のものを使用して 2 つの種を示し、影付きの領域を使用して 2 つの種の平均を示すにはどうすればよいですか?

ここに画像の説明を入力

Rで再現できる私のデータセットは次のとおりです。

これが私が試した私のコードです:

結果は次のとおりです。

影付きの領域は、2 つの曲線の和のように見えます。種ごとに 2 つの曲線の平均をプロットする方法を教えてください。

ありがとう。
ここに画像の説明を入力

0 投票する
8 に答える
35863 参照

python - Pythonで単語の頻度を効率的に数えます

テキスト ファイル内のすべての単語の頻度をカウントしたいと思います。

{'aaa':1, 'bbb': 2, 'ccc':1}ターゲット テキスト ファイルが次のような場合に返されます。

いくつかの投稿に従って、純粋なpythonで実装しました。ただし、ファイルサイズが非常に大きいため(> 1GB)、純粋なpythonの方法では不十分であることがわかりました。

sklearnの力を借りるのも候補だと思います。

CountVectorizer に各行の頻度をカウントさせると、各列を合計することで単語の頻度が得られると思います。しかし、それは少し間接的な方法に聞こえます。

Pythonでファイル内の単語を数える最も効率的で簡単な方法は何ですか?

アップデート

私の(非常に遅い)コードは次のとおりです。

0 投票する
2 に答える
1300 参照

r - R / ggplot2での相対頻度の視覚化

私は、一連の相対頻度をどのように視覚化して、それらが互いにどのように比較されているかを簡単に確認できるようにする方法の問題に頭を悩ませようとしました。分布に関しては、その違いは大きなものではありません。もちろん、私はそれを示す価値があると考えています. 比較的単純なポイント プロットを作成できましたが、見た目が十分ではないと思います。

コードは単純です (視覚的な微調整に関する限り未完成ですが)、次のように推測します。

これにより、次の画像が得られます。

ここに画像の説明を入力

だから、私の質問は次のとおりです。

このビジュアライゼーションは十分に機能していると思いますか? これらのデータの単純な点プロットよりも好ましいオプションはありますか?

事前にどうもありがとうございました!