問題タブ [frequency-distribution]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
9832 参照

matlab - 行列の要素の頻度 - Matlab

matlab で実行する関数から、225x400 の行列を取得します。この行列の各要素の頻度を数えたいと思います。つまり、各要素が行列に現れる回数を計算する必要があります。私のマトリックス名は「Idiff」です

私は使っている:

Idiff マトリックス内の一意の要素を検索します。1138 要素の列を受け取ったので、これらの要素は一意であり、Idiff マトリックスの他のすべての要素はこれらの要素が繰り返されていることを理解しています。

ここで、次を使用して、Idiff マトリックスに各一意の要素が何回出現するかを数えようとします。

しかし、私が得たのは 47761 要素の列で、混乱しています。

手伝って頂けますか?

0 投票する
1 に答える
2142 参照

mysql - 大規模な MySql テーブルで値の頻度分布を取得する効率的な方法

私は2つのテーブルを持っています。Total_DataおよびDistinct_S1

Total_Dataには 350 万行あります。フィールド: 「S1」、「S2」、「S3」、「S4」

Distinct_S1には 100 万行あります。フィールド: 「S1」、「頻度」。Distinct_S1の「 S1」は、 Total_Dataの「S1」で発生するすべての個別の値で構成されます。

当面のタスク: S1 = 'xxyy' に対するDistinct_S1の「頻度」(仮定) は、Total_Data で「 xxyy 」が発生する回数で構成される必要があります。

目前のタスクを実行するために、python スクリプト (インポートされた MySQLdb) 内から次のクエリを使用しました。

上記のクエリは正常に機能しますが、かなり時間がかかるようです。同じことを達成するための他のより速い方法はありますか?

0 投票する
1 に答える
6180 参照

r - Rはデータフレームのパーセンテージ値を計算します

今日の私の質問は、Rで作業しているデータフレームに関するものです。データフレームのヘッダーは次のようになります:String(unique)、Integer N [0-23]

これらの24の整数値は、1日の各時間に関連付けられた文字列の頻度を表します。論理的には、各行のint値は、一般にデータに文字列が表示される頻度の合計になります。

つまり、特定の時間における文字列の実際の頻度は必要ありませんが、この頻度がすべての行の整数値の合計に対して表すパーセンテージです。

私の講師は、table()がそのための適切なRツールである可能性があることをほのめかしましたが、それがどのように役立つかを正直に理解していません。

他のすべてが失敗した場合は、Javaで計算します-Rでこれを行うためにあなたの助けを本当に感謝しますが。

これまで読んでくれてありがとう、そしてあなたの助けを前もって感謝します、

リッキーフォックス

@@@@@@私はあなたの編集です、私を読んでください@@@@@@

ジェームズから得た助けを借りて、私は次の適切なものを手に入れました

つまり、パーセンテージの合計は各行で100になりますが、テーブル全体でそうする必要があります。それを行う方法はありますか?

0 投票する
2 に答える
13266 参照

r - スケーリング/加重密度プロット

各温度データポイントで観測されたイベントの数によってスケーリングされた、観測された温度の密度プロットを生成したいと思います。私のデータには、温度と[観測数]の2つの列が含まれています。

現在、次のように温度周波数のみを組み込んだ密度プロットがあります。

各温度での観測数を考慮して、この密度をどのようにスケーリングしますか?たとえば、温度密度プロットをスケーリングして、高温/低温で各温度の観測値が多い/少ないかどうかを確認できるようにしたいと思います。

気温に重きを置くことができるものを探していると思いますか?

0 投票する
4 に答える
3615 参照

python - Python の組み込み map および reduce 関数を使用して、文字列内の文字の頻度を計算する方法

pythons map を使用して文字列内の文字の頻度を計算し、組み込み関数を減らしたいと思います。誰かが私がこれを行う方法について洞察を提供できますか?

私がこれまでに持っているもの:

これは、すべての文字が同じ場合にうまく機能します。

異なる文字がある場合にうまく機能させるにはどうすればよいですか?

0 投票する
1 に答える
279 参照

r - ヒストグラムからの関数の適用 - R で

私は統計の非常に基本的な把握と、R の非常に基本的な把握を持っているので、ご容赦ください。

多くの回答者の毎週の支出を示す調査データがあります。これをヒストグラムに入れ、密度関数もプロットしました。ここまでは順調ですね。

この曲線をより大きな母集団に適用するにはどうすればよいでしょうか? 私の町の人口が 25000 人であることがわかっているとします。これを密度曲線に適用して、新しいヒストグラムとその背後にあるデータ テーブルを作成するにはどうすればよいでしょうか?

これが適切な質問であることを願っています、ありがとう。

0 投票する
2 に答える
1108 参照

c++ - C++ で最尤法を使用して 1000 個のサンプルを正規分布に当てはめる

私は5000倍のサンプルを持っています

サンプル = {1.23、-4.67、0.17、1.25、6.89、-2.03、...}

データを N(mu, sigma) や一般化された学生 t(loc, scale, DoF) などのパラメトリック分布に適合させたい...

私はすでにこれらの分布 PDF_normal(mu, sigma)(x) と PDF_t(loc, scale, DoF)(x) の PDF を持っており、固定分布パラメーターの 5000 サンプルの PDF の対数の合計を計算できます。

ここで、非線形最適化問題を解決するためにいくつかの C++ アルゴリズムを使用して、最大対数尤度値を与えるパラメーター (mu_max、sigma_max) または (loc_max、scale_max、DoF_max) を見つけたいと考えています。

R Project for Statistical Computing は、次の方法で MASS パッケージの問題を解決しています: .. 対数尤度の直接最適化は、optim を使用して実行されます。推定された標準誤差は、観測された情報行列から取得され、数値近似によって計算されます。1 次元の問題には Nelder-Mead 法が使用され、多次元の問題には BFGS 法が使用されます...

残念ながら、R ソリューションを使用することはできませんが、Microsoft VS2010 C++ でソリューションを考え出す必要があり、自分で最適化コードを書きたくないし、R ソース コードを見て C++ 用に書き直したくありません。 ..

C ++用のBFGS(または同様のもの)の高速で十分にテストされた実装を見つけることができる提案はありますか?

Boost、Intel MKL などで利用できるものはありますか?

助けてくれてありがとう、マット

0 投票する
1 に答える
2908 参照

json - JSON データを使用して d3 で周波数プロットを描画する

私はd3でプロジェクトを行っており、つぶやきをグラフ化するための頻度グラフを描く方法について頭を悩ませています。だから、基本的に、私はこのような形式のJSONファイルを持っています

そのため、特定の期間のツイート数を示すグラフを d3 で描画する必要があります。たとえば、日付 X と日付 Y の間に、1 日あたりのツイート数がグラフに表示されます。

誰かがこれで私を助けることができますか? 私は本当にd3が初めてです。

0 投票する
1 に答える
359 参照

gnuplot - 大きな入力に対する度数分布の作成について

最近、大規模なデータセットの度数分布を示すヒストグラムを作成する必要があります。データセットが小さい場合、これは簡単な作業です。ただし、プロットする必要があるデータ セットには約 800000000 個の数値が含まれており (各数値が 4 バイトであると仮定します)、それらはすべて 1 つのテキスト ファイルに 1 行に 1 つずつ格納されています。テキスト ファイルは約 4 GB です。GNUPLOT を試してみましたが、このデータ セットを処理するための十分なメモリがありません。誰かがこの問題を解決する方法、またはこの仕事をするための他のツールを提案できますか?

ありがとう、トム

0 投票する
1 に答える
2414 参照

r - 度数分布の中央値

多数のサンプルの度数分布の中央値を計算したいと考えています。各サンプルには、いくつかのクラス (この例では 3 つ) とそれぞれの頻度があります。各クラスは異なる値に関連付けられています

たとえば、サンプル 1 の中央値は 19.5 になります。これは、各サンプルの度数分布を使用して実行できると思いますquantile()が、すべての試行が失敗しました。

何か提案はありますか?