問題タブ [statistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 加重平均
ユーザーが難易度に基づいてアイテムを「評価」できる既存の Web アプリがあります。(0 ~ 15)。現在、私は単に各ユーザーの意見の平均を取り、MySQL から直接平均を提示しています。しかし、私 (および私のユーザー) には、数値を重み付けする方が適切であることが明らかになりつつあります。
奇妙なことに、Google を数時間使用してもあまり効果がありませんでした。「ベイジアン フィルター」に基づくサイト全体の評価システムを示す 2 つの記事を見つけました (これは部分的に理解しています)。 一例を次に示します。
式は次のとおりです。
WR=(V/(V+M)) * R + (M/(V+M)) * C
どこ:
ここで、アイテムごとの総投票数に基づいて重み付けを増やすというアイデアが気に入っています...ただし、私のサイトの難易度はアイテムごとに大幅に異なる可能性があるため、「C」(全体の算術平均評価)を取りますサイト) は無効です。
だから、私の質問の言い換え:
MySQL、PHP、またはその両方を使用して、算術平均から取得しようとしています。
...加重平均に:
math - すべてのデータ ポイントを保存せずに平均信頼区間を計算する
大きい場合n
(十分な大きさを決定する方法については以下を参照)、中心極限定理により、標本平均の分布を正規 (ガウス) として扱っても安全ですが、任意の信頼区間を与える手順が必要です。n
. n-1
その方法は、自由度のあるスチューデント T 分布を使用することです。
そこで問題は、一度に 1 つずつ収集または遭遇する一連のデータ ポイントが与えられた場合、 (以前に遭遇したすべてのデータを保存せずに) データ ポイントの平均に対する信頼区間c
(たとえば) をどのように計算するかということです。c=.95
これを尋ねる別の方法は、次のとおりです。ストリーム全体を保存せずに、データ ストリームの最初と 2 番目の瞬間をどのように追跡しますか?
ボーナス質問: ストリーム全体を保存せずに、より高い瞬間を追跡できますか?
statistics - 対話型統計分析ツール
統計分析用の基本的なソフトウェアを探しています。最も重要なのは、「箱から出してすぐに」使い始めることができる、シンプルで直感的な使い方です。少なくとも基本的な操作はインタラクティブにする必要があります。無料はボーナスになります:)
目的は、さまざまなプロセスのデータ ダンプとログの分析です。
- コンマ/タブ区切りファイルのインポート
- 条件による行のソートとフィルタリング
- 基本集計: カウント、平均、偏差、回帰、トレンド
- 視覚化 - データのプロット、ビン分布など
Excel は (少なくとも私にとっては) データのフィルタリングと再結合に失敗します。「Excel with SQL」のようなものがいいと思います。今までMS Access+Excelを使ってデータをコピペしていたのですが、面倒です。
何かお勧めはありますか?
明確化IIS/Web サーバー ログ用の特定のツールを探しているのではなく、タブ区切りの値を持つさまざまなデータ終了イベント ログ (主にカスタム アプリケーションから) を探しています。
algorithm - F#で移動平均を計算する
私はまだF#のことを理解することに取り組んでいます-私が知っている他の言語から単に翻訳するのではなく、F#で「考える」方法を考え出そうとしています。
私は最近、前後の間に1:1のマップがない場合について考えています。List.mapが失敗する場合。
この一例は移動平均です。通常、n個のアイテムを平均すると、長さlenのリストに対してlen-n+1の結果が得られます。
そこにいる教祖にとって、これはそれを行うための良い方法ですか(ジョモフィッシャーからつままれたキューを使用して)?
(おそらく、Fifoから継承してMovingAverageQueueを実装するのがより良い方法でしょうか?)
statistics - シミュレーション/統計/予測の大学院レベルの学位?
誰かがこれについて何か洞察を持っているかどうか疑問に思います。コンピュータサイエンス関連の学位を取得するために大学院に行くことを考えています。私は、問題を解決するために統計パッケージやシミュレーションを使用して問題に取り組んでいる人々に常に興味をそそられてきました。これらのことについての幅広い知識を得るために、私は何を勉強しますか?彼らは機械学習に分類されますか?ありがとう
python - 2 つの D30 の複雑なスローの正確な結果を計算する
さて、これは数年間私を悩ませました。学校で統計学や高等数学に夢中になっている場合は、今すぐやめてください。遅すぎる。
わかった。深呼吸する。ルールは次のとおりです。2 つの30 面ダイス (はい、存在します) を取り、同時に転がします。
- 2 つの数字を足す
- 両方のサイコロが 5 以下または 26 以上の場合は、もう一度投げてその結果を自分の持っているものに追加します。
- 1 つが <= 5 で、もう 1 つが >= 26 の場合は、もう一度投げて、その結果を自分の持っているものから引きます。
- どちらかが > 5 かつ < 26 になるまで繰り返します!
いくつかのコードを記述し (以下を参照)、それらのサイコロを数百万回転がし、最終結果として各数字を受け取る頻度を数えると、1 の左側でかなり平坦な曲線が得られます。1 と 1 の間は約 45° です。 60 以上でフラット。30.5 以上になる確率は 50% 以上、18 以上になる確率は 80%、0 以上になる確率は 97% です。
ここで質問です:正確な値 f(x)、つまり特定の値をロールする確率を計算するプログラムを書くことは可能ですか?
背景: ロールプレイング ゲーム「Jungle of Stars」では、ランダムなイベントを抑える方法を探しました。上記のルールは、あなたが試みる何かに対してより安定した結果を保証します:)
オタク向けの Python のコードは次のとおりです。
sql-server - sp_updatestats により、SQL Server 2005 でテーブルにアクセスできなくなりますか?
統計を更新するとテーブルにアクセスできなくなりますか? つまり、ダウンタイムなしでこの手順を実行できますか?
特に SQL Server 2005 の場合
algorithm - 置換なしのサンプリングのアルゴリズム?
特定のデータのクラスタリングが偶然に発生した可能性をテストしようとしています。これを行う堅牢な方法はモンテカルロ シミュレーションです。このシミュレーションでは、データとグループの間の関連付けが無作為に何度も (たとえば 10,000 回) 再割り当てされ、クラスタリングのメトリックを使用して実際のデータとシミュレーションを比較して ap を決定します。価値。
グループ化をデータ要素にマッピングするポインターを使用して、このほとんどの作業を行ったので、データへのポインターをランダムに再割り当てする予定です。質問: 複製データセットですべてのポインターがランダムに再割り当てされるように、置換なしでサンプリングする高速な方法は何ですか?
例 (これらのデータは単純化された例です):
データ (n=12 値) - グループ A: 0.1, 0.2, 0.4 / グループ B: 0.5, 0.6, 0.8 / グループ C: 0.4, 0.5 / グループ D: 0.2, 0.2, 0.3, 0.5
レプリケート データ セットごとに、同じクラスター サイズ (A=3、B=3、C=2、D=4) とデータ値を使用しますが、値をクラスターに再割り当てします。
これを行うには、1 ~ 12 の範囲で乱数を生成し、グループ A の最初の要素を割り当て、次に 1 ~ 11 の範囲で乱数を生成し、グループ A の 2 番目の要素を割り当てる、というようにします。ポインターの再割り当ては高速で、すべてのデータ構造を事前に割り当てますが、置換なしのサンプリングは以前に何度も解決された可能性がある問題のようです。
ロジックまたは疑似コードが優先されます。
math - サーバーログの統計分析 - 外挿の正確さ
ある日、約 10 分間 ISP に障害が発生しました。これは、残念ながら、複数の場所から書かれているホストされた試験中に発生しました.
残念ながら、これにより、進行中の候補者の現在のページのポストバック データが失われました。
サーバーログからイベントの流れを再構築できます。ただし、317 の候補のうち 175 はローカル プロキシを使用していました。つまり、それらはすべて同じ IP から来ているように見えます。残りの 142 (45%) のデータを分析したところ、それらに何が起こったのかについていくつかの適切な数値が得られました。
質問: セット全体で予想される結果を得るために、すべての数値に 317/142 を掛けることはどの程度正しいですか? 私の(不)確実な領域はどこですか?
推測しないでください。統計の授業で寝落ちしなかった人に答えてもらいたい。
編集: 数字で、私は影響を受けた個人の数を参照していました. たとえば、5/142 は、セッション中にブラウザーがクラッシュした証拠を示しました。11/317 でブラウザがクラッシュしたという推定はどの程度正しいですか?
java - Java 統計パッケージ? (マルコフ連鎖と高度な分布)
マルコフ連鎖やその他の高度なディストリビューション (統計など) を提供するまともな Java ライブラリを探すのに苦労しています。
ソース フォージでhttp://sourceforge.net/projects/hydra-mcmc/を見つけました。 これは多少使いやすそうに見えますが、最新のパッケージを知っている/使用している人はいますか? (私はこのパッケージの宝庫を実際には持っていませんが、より適切に管理されたパッケージが望ましいと思われます)。
誰でも提案をすることができますか?