問題タブ [significance]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
8348 参照

python - decimal モジュールの有効数字

そこで、問題を解決するための Python スクリプトをいくつか作成して、物理学の宿題を解決しようと決心しました。私が直面している問題の 1 つは、有効数字が常に適切に表示されるとは限らないことです。たとえば、これは有効数字を適切に処理します。

しかし、これはしません:

だから2つの質問:

  1. これは有効数字の予想される量ではないというのは正しいですか、それとも有効数字の計算をブラッシュアップする必要がありますか?
  2. 小数の精度を手動で設定せずにこれを行う方法はありますか? 確かに、numpy を使用してこれを行うことができると確信していますが、好奇心から decimal モジュールでこれを行う方法があるかどうかを知りたいだけです。
0 投票する
8 に答える
3931 参照

c# - C# 検索結果表示用の関連ドキュメント スニペットの検索

私が構築しているサイトの検索を開発する際に、Lucene.Net のようなより堅牢なものではなく、Microsoft Sql Server の全文検索エンジンを使用することにしました。

私が欲しい機能の 1 つは、Google 風の関連ドキュメント スニペットです。「関連性の高い」スニペットを特定することは、思ったより難しいことにすぐに気付きました。

見つかったテキストの検索語密度に基づいてスニペットを選択したいと考えています。したがって、基本的には、テキスト内で最も検索用語が密集している箇所を見つける必要があります。パッセージは任意の数の文字です (たとえば 200 文字ですが、実際には問題ではありません)。

私の最初の考えは、ループで .IndexOf() を使用し、用語の距離の配列を作成することです (以前に見つかった用語から見つかった用語のインデックスを減算します)。任意の 2 つ、任意の 3 つ、任意の 4 つ、任意の 5 つの連続する配列要素を合計し、合計が最小の要素を使用します (したがって、検索語間の距離が最小になります)。

それは厄介なようです。

私が思いついた方法よりも、これを行うための確立された、より良い、またはより明白な方法はありますか?

0 投票する
6 に答える
2617 参照

precision - テイラー級数を使用して精度の低下を回避する

テイラー級数を使用して、関数を解くための数値的に健全なアルゴリズムを開発しようとしています。私はかなり長い間それに取り組んできましたが、まだ運がありません。何が間違っているのかわかりません。

機能は

また、この関数で精度が失われるのはなぜですか? x がゼロに近い場合、sin(x)/ln(1+x) は x と同じ数にさえ近くありません。どこで重要性が失われているのかさえわかりません。

これを解決するには、sin(x) と ln(1+x) のテイラー展開を使用する必要があると思います。

それぞれ。分母のようなものを使用して x と sin(x)/ln(1+x) コンポーネントを組み合わせたり、3 つすべてを組み合わせたりしようとしましたが、最終的には何もうまくいかないようです。どんな助けでも大歓迎です。

0 投票する
1 に答える
30614 参照

excel - Excel で統計的有意性を計算する

Excelに2列と複数行のデータがあります。各列はアルゴリズムを表し、行の値は異なるパラメーターを使用したこれらのアルゴリズムの結果です。これら2つのアルゴリズムの統計的有意性テストをExcelで行いたいです。誰でも関数を提案できますか?

結果として、「アルゴリズム A はアルゴリズム B よりも 8% パフォーマンスが 0.9 の確率 (または 95% の信頼区間) で優れている」のように述べるとよいでしょう。

ウィキペディアの記事は、私が必要とするものを正確に説明しています: http://en.wikipedia.org/wiki/Statistical_significance

とても簡単な作業のように思えますが、科学的な測定関数を見つけることができませんでした。

Excel の組み込み関数または関数スニペットに関するアドバイスをいただければ幸いです。

ありがとう..

編集:

tharkun のコメントの後、いくつかの点を明確にする必要があることに気付きました。結果は 1 ~ 100 の間の実数にすぎません (パーセント値です)。各行は異なるパラメータを表すため、行の値はこのパラメータに対するアルゴリズムの結果を表します。結果は相互に依存しません。アルゴリズム A とアルゴリズム B のすべての値の平均を取ると、アルゴリズム A が生成したすべての結果の平均は、アルゴリズム B よりも 10% 高いことがわかります。しかし、これが統計的に有意かどうかはわかりません。言い換えれば、アルゴリズム A がアルゴリズム B よりも 100% 高いスコアを獲得した 1 つのパラメーターについて、アルゴリズム B がより高いスコアを獲得した可能性がありますが、この 1 つの結果だけで、平均の差は 10% になります。そして、私はこの計算をExcelだけで行いたいと思っています。

0 投票する
2 に答える
206 参照

terminology - ドキュメント内のテキスト頻度とコーパス内の頻度の比較

文字、バイグラム、単語などの項目についてドキュメントを分析し、ドキュメント内でのそれらの頻度と、ドキュメントの大規模なコーパスでの頻度を比較したいと考えています。

「if」、「and」、「the」などの単語はすべてのドキュメントで共通ですが、一部の単語はこのドキュメントではコーパスの典型よりもはるかに一般的です。

これはかなり標準的なはずです。それはなんと呼ばれていますか?明白な方法でそれを行うと、文書内の新しい単語に常に問題がありましたが、コーパスの評価では無限に重要ではありませんでした。これはどのように処理されますか?

0 投票する
1 に答える
2464 参照

python - Python で時間の経過に伴う ANOVA、私は何をしていますか?

私は統計学がとても好きですが、6 年以上コースを受講していません。ここで必要なテストの種類と、これらの種類の問題に使用するのに最適な numpy/scipy/R 関数を理解するのに苦労しています。

訪問者とそれに対応するプロパティ (例: "Browser = Mozilla, Referrer = Google") のテーブルと、時間の経過に伴うデータ ポイントにグループ化された、訪問者ごとの変数値 (例: $5) があります。

私の目標は次のとおりです。

A) 最も重要なプロパティ ファミリを見つけ、そのファミリが「どれほど重要か」のスコアを付けます

導きたい結論の例*:

B) 有意性スコアを使用して、ファミリー内で最も重要なプロパティを見つけます。

私が描きたい結論の例:

私の質問は次のとおりです。

1) ここで私の生活を楽にする numpy/scipy/R 関数はありますか?

2)ANOVA(分散分析)とANOVA-over-timeについてもう少し知っている人は、フィードバックを提供してもらえますか? 私はこれを正しくやっているとは確信が持てず、単純なものが欠けている可能性があります。確認または修正はどちらも大歓迎です。

これらは、過去 30 日間の (ヒット数、値、日数) の配列であることに注意してください。たとえば、月曜日に Value-Of-Mozilla に大きなピーク (ベースラインと比較して) があり、火曜日に Value-Of-Mozilla に (ベースラインを下回る) 低下がある場合、Mozilla を「重要な」プロパティとして表示したいと考えています。 (ピーク/ドロップが互いに相殺するのではなく)

マップ/縮小する前の入力データの例:

これが私の現在のコードです。これは Dumbo/Hadoop で実行され、基本的に私が考案した数式の「重要度」の数値を提供します。私の式は機能し、意味のあるデータが得られますが、「重要性」の値は明確に定義されていません (「重要な」プロパティのスコアは通常 100 以上ですが、これはデータセットのサイズによって異なります)。これにはおそらく「本当の公式」があります。

前もって感謝します!

0 投票する
2 に答える
469 参照

client - JAVA_OPTS の「-client」の意味は何ですか?

私は JAVA_OPTS の専門家ではありませんが、Permgen スペースに関連する grails アプリでエラーが発生します。ここで、JAVA_OPTS を次の値に設定するよう、grails ブログから推奨を受けました。

JAVA_OPTS="-client -Xmx256M $JAVA_OPTS"

「-client」以外の値は理解しています。それは本当にどういう意味ですか?本の意味がわかりません。

0 投票する
2 に答える
3182 参照

r - R での有意性テスト、単一変数内の 1 つの列の比率が他の列と有意に異なるかどうかを判断する

これはRの簡単なコマンドだと思いますが、何らかの理由で解決策を見つけるのに苦労しています。

Rで(table()コマンドを使用して)一連のクロスタブを実行しようとしていますが、各タブには2つの列(治療と治療なし)があります。列間の違いがすべての行で互いに有意に異なるかどうかを知りたいです (行は調査からの回答の選択肢の一部です)。全体的な有意性には興味がありません。治療と治療なしを比較するクロスタブ内のみです。

この種の分析は SPSS では非常に簡単ですが (以下のリンクで私が話していることを説明しています)、R ではうまくいかないようです。

http://help.vovici.net/robohelp/robohelp/server/general/projects_fhpro/survey_workbench_MX/Significance_testing.htm

EDITED:これは私が何を意味するかについてのRの例です:

私はこのようなテーブルを持っています ^ (治療変数の列ごとにパーセンテージ)。治療 0 から治療 1 までの各質問の選択肢 (行) に有意差があるかどうかを確認したいと思います。したがって、上記の例では、 4 と 2 (行 1)、3 と 3 (行 2)、1 と 3 (行 3) の間に有意差があるかどうかを知りたいとします。したがって、この例では、質問 1 の選択肢は、選択肢 1 と選択肢 3 で有意差がある可能性があります (差が 2 であるため) が、差がゼロであるため、選択肢 2 の差はそうではありません。最終的に、私はこのタイプの重要性を判断しようとしています。それが役立つことを願っています。

ありがとう!

0 投票する
1 に答える
6476 参照

python - 時系列データの変化が重要でなくなったかどうかを検出する方法は?

統計がある一連のニュース記事があります。たとえば、ある範囲の記事に言及している twitter 投稿の数です。統計値の自然な動作は、新しい投稿の数が急速に増加し、ニュースが古くなるにつれて減少することです。

データセット全体について、統計への変更が重要でなくなるまでの日数を計算する方法を知りたいです (例: 投稿全体の 0.1% 未満)。

情報と方法を探すためのヒントを教えてください。Python のコード サンプルもよろしくお願いします :)

0 投票する
2 に答える
29770 参照

r - 有意性を表すために箱ひげ図にアスタリスクを追加するにはどうすればよいですか?

独立変数の t 検定評価を実行した後の有意性を表す boxplot グラフのボックスの上または下にアスタリスクを含めようとしています。これをグラフに追加するにはどうすればよいですか?