問題タブ [chi-squared]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rでのカイ2乗適合度検定
観測値のベクトルと、モデルで計算された値のベクトルがあります。
現在、カイ2乗適合度検定を使用して、モデルのパフォーマンスを確認しています。私は次のように書いた:
しかし、それは機能しません。これを手伝ってくれませんか。
python - Python のカイ 2 乗検定統計量からの P 値
自由度 1 のカイ二乗として分布する検定統計量を計算しました。Python を使用して、これがどの P 値に対応するかを調べたいと考えています。
私は Python と数学/統計の初心者なので、ここで必要なのは SciPy の chi2 分布の確率密度関数だと思います。ただし、これを次のように使用すると:
ただし、数学は知っているがPythonは知らない同僚とグーグルで話したり話したりすると、0.05にする必要があるとのことです。
何か案は?乾杯、デイビー
r - Rでは、調査の長さが異なる場合、カイ二乗検定で期待値を計算するにはどうすればよいですか?
私は行動研究を行っており、種が 3 つの期間で予想とは大幅に異なる反応を示しているかどうかを確認したいと考えています。種の 47 の独立した観察があり、それぞれ 3 つの期間があり、合計観察期間は 8.6 分です。1 ピリオドは 3 分、2 ピリオドは 0.6 分、3 ピリオドは 5 分です。各期間中、動物は肯定的または否定的に反応します。最初の期間では、2 つの肯定的な応答があり (47 の観測のうち、45 は否定的)、2 番目の期間では、47 の応答のうち 13 が肯定的であり、3 番目の期間では、47 の応答のうち 14 が肯定的でした。
したがって、期間間の時間の違いを修正するために帰無仮説の確率を調整するカイ二乗検定を実行しようとしていますが、正しく行っているとは思いません。
この場合、これらの期待値の帰無仮説が正しくないことはかなり確信していますが、それを適切に調整する方法はわかりません。
r - クロス テーブルの値の除外
Rデータセットがあります。このデータセットでは、gmodels
2 つのカテゴリ変数のパッケージを使用してクロステーブルを作成し、chisq.test
それらに対して a を実行したいと考えています。2 つの変数はwitness
とagegroup
です。witness
値 1、2、および 9 を持つ観測値でagegroup
構成されます。 値 1、2 で構成されます。witness=9
、または/およびテーブルから 3 番目の変数の値を除外したいのですが、どうすればよいEMS=2
かわかりません。
...だから私の質問は、どうすれば上記の条件で上記を行うことができますwitness!=9
かEMS!=2
python - 機能マトリックスでscikit_learnを使用した奇妙なカイ二乗結果
基本的なカイ二乗統計 (sklearn.feature_selection.chi2(X, y)) を計算するために scikit Learn を使用しています。
1500 個のサンプル、45 個の機能、4 つのクラスがあります。入力は、1500x45 の特徴マトリックスと、1500 コンポーネントのターゲット配列です。特徴マトリックスはスパースではありません。プログラムを実行し、45 個のコンポーネントを含む配列 "chisq" を出力すると、コンポーネント 13 が負の値で p = 1 であることがわかります。または、それはどういう意味ですか、または私がしている大きな間違いは何ですか?
chisq と p のプリントアウトを添付します。
arrays - バイナリ比較を使用したデータフレームのRchisq.test()
次元(50x752)のデータフレームでchisq.testを実行したいと思います。すべての列のすべての可能なペアワイズ比較のp値(多重検定によって調整)を取得したいと思います。最後に、行列(50x50)を取得して、調整されたカイ2乗p値のヒートマップを生成します。これが私が今していることですが、これははるかに理想的です。
ステップ1:ペアワイズ比較を行う
ステップ2:出力テーブルはを使用して行列に変換されます
しかし、これはうまく機能していません。最終的な行列のp値をミラーリングしておらず、1番目の関数の出力を操作して対角線を0で埋める必要があるためです(列をそれ自体と比較する場合)。あなたの助けは大歓迎です!
r - データフレームを変換してカイ二乗検定を実行するにはどうすればよいですか?
このようなデータフレームがあるとしましょう。基本的に単語頻度表です。それをテーブルに変換して、独立性のカイ二乗検定を実行できるようにするにはどうすればよいですか?
statistics - jpegファイル内のバイトの分布
圧縮されたデータを観察するとき、私はほぼ均一に分散されたバイトストリームを期待します。分布を測定するためにカイ二乗検定を使用すると、たとえばZIPファイルやその他の圧縮データではこの結果が得られますが、JPGファイルでは得られません。昨日、この理由を見つけることに費やしましたが、何も見つかりません。
JPGのエントロピーを計算すると、高い結果が得られます(たとえば、7,95ビット/バイト)。エントロピーと分布の間には関係があるに違いないと思いました。すべてのバイトがほぼ同じ確率で現れる場合、エントロピーは高くなります。しかし、カイ2乗を使用する場合、約4,5e-5のp値を取得します。
異なる分布がテスト結果にどのように影響するかを理解したいだけです...両方のテストで同じプロパティを測定できると思いましたが、明らかにできません。
ヒントありがとうございます!トム
feature-selection - 相互情報量とカイ 2 乗の関係
次のコードを使用して、感情分析で特徴を選択するための相互情報量とカイ 2 乗値を計算しました。
ここで、N11、N01、N10、および N00 は、データ セット内の 2 つの特徴の観測頻度です。
注:特定の機能とクラス間の相互情報ではなく、2つの機能間の相互情報とカイ二乗値を計算しようとしています。私はこれを行っているので、2 つの機能が何らかの形で関連しているかどうかがわかります。
私が使用したカイ二乗式は次のとおりです。
E00、E01、E10、E11 は予想される周波数です。
相互情報の定義によると、値が小さいということは、一方の機能が他方の機能に関する情報を提供しないことを意味し、カイ 2 乗の定義により、カイ 2 乗の値が小さいということは、2 つの機能が独立していなければならないことを意味します。
しかし、特定の 2 つの機能については、相互情報スコアが 0.00416 で、カイ 2 乗値が 4373.9 でした。相互情報量スコアは機能が密接に関連していないことを示していますが、カイ二乗値はそれらが独立していないことを示すのに十分高いように見えるため、これは私には意味がありません. 私の解釈が間違っていると思います
観測された周波数について得た値は次のとおりです。
python - lmfitを使用したPythonでのカイ2乗最小化
lmfit
Pythonとモジュールを使用してマルチパラメータフィットを実行しようとしています。私は、コードの基礎として、ここに示されている例に従っています。コードを理解している限り、目的関数を適切に定義し(残差を与える)、適切な引数を指定すれば、最小二乗近似を実行できるはずです。
これが私の現在の目的関数です。
ここで、fit_model(args*)
メソッドは次のように定義されます。
これにより、私が期待するもの、numpy.ndarray
つまりデータの長さがわかります。私が抱えている問題は、カイ二乗適合を最小化しようとすると、
エラーメッセージが表示されます:
私はこれが何を意味するのかをlmfit
ソースコードから理解しようとしましたが、それは私の理解を少し超えています。このエラーを解決する方法を知っている人はいますか?
ありがとう