問題タブ [causality]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Bayesian Causal Network の予測精度の向上
熱力学的過程における予期しない結果 (または異常) の原因を特定したいと考えています。関連する変数の継続的なデータがあり、因果関係の決定に「ベイジアン ネットワーク (BN)」を利用しようとしています。この目的のために、Python で「 Causalnex 」というライブラリを使用しました。
このライブラリのチュートリアル セクションに従って、DAG、BN モデルを構築しましたが、予測のステップまではすべて正常に機能します。少数派/少数派クラスの予測結果の精度は約 60 ~ 70% (SMOTE/SMOTEmek および特定のランダム状態では 80 ~ 90%) ですが、90% 以上の安定した精度が期待されます。次のデータ前処理手順を実装しました。
- 欠損値や NaN 値がないことを確認する
- 離散化 (ライブラリでのみサポートされています)
- データバランシングのためのSMOTE/SMOTEmek
- さまざまなトレイン/テスト サイズの組み合わせ
モデルを最適化する方法を見つけるのに苦労しています。インターネットで同じことを裏付ける資料を見つけることができませんでした。
このライブラリ/BN モデルで特に機能するデータ前処理手法とデータセット要件のガイドラインまたは「ベスト プラクティス」はありますか? 精度/メトリックが低い原因を特定するためのトラブルシューティング方法を提案していただけますか? おそらく、DAG で誤解されているノード間の因果関係が平凡な精度を引き起こしているのでしょうか?
これに関するアイデア/文献/その他の適切なライブラリは非常に役立ちます!
python - 観測データの因果推論
このサイトDoWhy
に基づいて、在職期間と解約の間に因果関係があるかどうかを確認するために python パッケージを使用しています。
他にもいくつかの変数があります。
これは分析を行う正しい方法ですか?
一般的な原因とは何を意味し、どのように選択するのでしょうか?
結果をどのように解釈できますか?
python - グレンジャーのマックスラグ
約 3 年分の毎日のデータ (時系列ごとに約 1100 データ ポイント) であるいくつかのデータセットのグレンジャーの因果関係を判断するための Python スクリプトを作成した開発者がいます。スクリプトはうまく動作しているように見えますが、どの MaxLag を選択すればよいかわかりません。私たちの目標は、考えられる因果関係を特定し、因果関係のラグタイム (1 日、2 日、7 日、14 日など) を特定することです。明らかに、maxlag の数値を 1 から 15 に変更すると、非常に異なる数値が得られます。以下で参照しているコード部分を参照してください。
MaxLag が高いほど、時系列でより多くの「分析」が行われ、MaxLag の数値が高くなり、より強い因果関係の結果が得られることを理解しています。因果関係の実際の「ラグ」が何であるかを知っている場合にのみ、それは非常に役立つように見えます。