問題タブ [statistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server-2005 - ある場合、列に存在する統計を取得する方法は?
テーブル内の特定の列に統計があるかどうかを Transact SQL にチェックインし、統計がある場合はそれらをすべて取得したいと考えています。
command-line - コマンドラインから一連の数値の平均を取得する最も簡単な方法は何ですか?
nixシステムで見つかると予想されるツールを使用して(実際、必要に応じて、msdosも問題ありません)、一連の数値の平均を計算する最も簡単で最速の方法は何ですか。ストリームまたはファイルの行ごとに?
algorithm - tf-idf とこれまでに見られなかった用語
TF-IDF (用語頻度 - 逆文書頻度)は、情報検索の定番です。ただし、これは適切なモデルではなく、新しい用語がコーパスに導入されると壊れてしまうようです。クエリや新しいドキュメントに新しい用語が含まれている場合、特にそれらが頻繁に使用される場合、人々はそれをどのように処理しますか? 従来のコサイン マッチングでは、それらは総一致に影響を与えません。
statistics - セットから要素を選択する確率
n個の要素のセットから要素をランダムに選択する予想確率はP=1.0/nです。偏りのない方法でPを何度もチェックするとします。Pの配布タイプは何ですか?負になることはできないため、Pが正規分布していないことは明らかです。したがって、Pがガンマ分布であると正しく仮定できますか?はいの場合、この分布のパラメーターは何ですか?100要素セットから1000回要素を選択する確率のヒストグラムをここに示します。
これを標準分布に変換する方法はありますか
ここで、与えられた要素を選択する観測された確率がP *(P *!= P)であると仮定します。バイアスが統計的に有意であるかどうかをどのように推定できますか?
編集:これは宿題ではありません。私は趣味のプロジェクトをやっていて、そのためにこの統計が必要です。私は10年前に最後の宿題をしました:-)
sql - MySQL varchar カラム内で最も一般的な部分文字列の順序付きリストを作成するにはどうすればよいですか?
数千行の MySQL データベース テーブルがあります。テーブルは次のように設定されています。
id | text
id
列は自動インクリメント整数で、列text
は 200 文字の varchar です。
次の行があるとします。
3 | I think I'll have duck tonight
4 | Maybe the chicken will be alright
5 | I have a pet duck now, awesome!
6 | I love duck
次に、生成したいリストは次のようになります。
- 「アヒル」の 3 回の出現
- 「私」の 3 回の出現
- 'have' の 2 回の出現
- 1 件の '鶏'
- .etc .etc
さらに、「I」、「will」、「have. 人々が何を投稿するかわからないことに注意することが重要です。
監視したい単語のリストはありません。最も一般的な部分文字列を見つけたいだけです。次に、クエリを編集して、手動でリストから興味のない誤った部分文字列を除外します。
誰でもこれを行うための最良の方法を提案できますか? みんな、ありがとう!
math - カウントデータから事前ディリクレを学習するためのRパッケージはありますか
R
カウントデータから事前にディリクレをトレーニングするために使用できるパッケージを探しています。を使用している同僚をR
探していますが、自分では使用していないため、パッケージの検索方法がよくわかりません。「R」は特定されていない検索文字列なので、検索するのは少し難しいです。CRANには何もないようですが、他に見るべき場所はありますか?
debugging - バグ分布
ある言語から別の言語に移植するプログラムがあります。私は自分で開発している翻訳プログラムでこれをやっています。これに関連する結果として、私のシステムには多くのバグがあり、それらを見つけて修正する必要があると予想されます。各バグは多くの場所で現れる可能性が高く、それを修正すると、バグが現れるすべての場所でバグが修正されます。(私は非常に大きなレバーを持っているように感じ、短い端を押しています。私は非常に強く押していますが、物事が動くと大きく動きます。)
実行ログの差分を実行する機能があるので、元のプログラムの実行から逸脱する前に、テスト スイートをどれだけ実行できるかによって進行状況を測定しています。(BeyondCompare に感謝します。約 1M 行のファイルで十分に機能します:D)
問題は、そのランレングスを時間の関数としてプロットした場合、どのような形になると予想する必要があるかということです。(より多くの時間 == より多くのバグが削除されました)
私の最初の考えは、ポアソン分布のようなものです。ただし、各バグを修正すると、他のすべてのバグも削除されるため、それは完全に正しいとは言えません。
(ところで、これは、プログラムのデバッグがいつ終了するかを見積もることに関して、現実世界に影響を与える可能性があります。)
編集: 問題のより抽象的な声明:
範囲 [0,M] (N>>M) から選択された N 個の整数の順序付きリストが与えられ、リスト内の位置に沿って均一に分布しますが、必ずしも数値が均一に分布するとは限りません。その最後の「新しい」番号の予想される場所はどこですか? 最後から2番目はどうですか?等?
windows - Windowsでmemcached統計を監視する方法は?
Windowsでmemcachedを監視するために人々が見つけた最も簡単な方法は何ですか?私が試した1つの方法は、きちんと機能します。
memcachedポート(11211)にtelnetで接続し、「stats」コマンドを入力します。次のようなリストが返されます。
もっと簡単な方法はありますか?
math - 可変数のマッチに基づいて公正な総合ゲーム スコアを計算するにはどうすればよいですか?
各試合で-40から+40まで得点できるゲームがあります。ユーザーは何回でも対戦できます。プレイされた試合数を暗黙的に考慮した合計スコアを計算したいと考えています。
平均だけを計算するのは公平ではありません。たとえば、Peter が 4 つのゲームをプレイし、各試合で 40 ポイントを獲得した場合、彼の合計スコアは、40 ポイントで 1 つの試合だけをプレイした Janne と同じになります。
試合のスコアを合計することも公平ではありません。ピーターは 2 ゲーム (各試合で 40 ポイント) をプレイし、合計スコアは 80 です。ジャンヌは 8 ゲーム (各試合で 10 ポイント) をプレイし、合計スコアは 80 です。
合計スコアを計算する (簡単な) 公平な方法はありますか? チェスのレーティングの Elo & Glicko システムについて読んだことがありますが、どちらもプレイヤーのレーティング履歴と対戦相手のレーティングに基づいています。
python - ポアソン確率パーセンテージを計算する
Excel (または OpenOffice Calc) で POISSON 関数を使用する場合、次の 2 つの引数を取ります。
- 整数
- 「平均」数
フロートを返します。
Python (私は RandomArray と NumPy を試しました) では、ランダムなポアソン数の配列を返します。私が本当に欲しいのは、このイベントが発生するパーセンテージです (これは定数であり、配列には毎回異なる数値があります。つまり、平均ですか?)。
例えば:
戻ります[1 3 3 0 1 3]
(実行するたびに異なります)。
calc/excel から取得した数値は 3.19 ( POISSON(6,2.16,0)*100
) です。
私はpythonのポアソンを間違って使用していますか(駄洒落ではありません!)、それとも何か不足していますか?