0

データを処理する人には、「データを十分に拷問すれば、ほとんど何にでも告白する」ということわざがあります。これは、ボフェローニの定理によって数学的に裏付けられています。この定理では、「統計的検定の数が増えると、誤った有意な結果(タイプIの過誤)が発生する可能性も高くなります」と述べています。たとえば、データマイニングの原則で与えられた状況が知られています:「このタイプの予測の特にユーモラスな例の1つは、有名なスタンダードとプアーの年間値のほぼ完全な予測を達成したラインウェーバー(個人的なコミュニケーション)によって提供されましたバングラデシュと米国のバター生産、チーズ生産、羊の個体数の前年の年間値の関数としての500財務指数。

複雑すぎるモデルを使用しているときに実際的な状況に遭遇しましたか?結果は誤っていましたか?あなたが使ったアプローチと一緒に、あなたはそのような状況を提示できますか?

4

1 に答える 1

2

私の経験では、主な問題は統計手法の間違った使い方です。よくある間違いの 1 つは、テストするデータを事前に決定しないことです。私が聞いたある教授は、これを、決められた場所ではなく、馬が前に出ているときにフィニッシュ写真を撮る競馬と比較したと聞きました。これは、医学研究では非常に一般的です。

私が知っているもう 1 つの例は、データが正規分布していると仮定して統計テストを行ったところですが、そうではありませんでした。

静的な依存性が因果関係であるとは決して考えないでください (例えば、フランクフルトでは、HIV と飛行機の騒音との間に依存性があります。これは、飛行騒音が HIV を引き起こすという意味ではありません)。

基本的に、それはモデルの複雑さではありません。正しいデータで正しい方法を使用する必要があります。それは十分難しいです。テストする前にデータを決定する必要があります。これを確認したい場合は、ダイスロールまたはコイントスで公平性テストを行ってください。各ロール/フリップの後にすべてのデータでそれを行います。あなたは時々、あなたのサイコロが公平ではないことを示していることがわかります. もちろん、サイコロの公平性について多数の独立したテストを行うと、サイコロが不公平であることを示すいくつかの結果が得られますが、これは統計テストで予想されるエラーです。

統計調査におけるもう 1 つの非常に基本的なことは、自分の仮説が何を示しているかを確認することです。テストでは、希望するものを表示できない場合があります。拒否することしかできません。

要するに、なんらかの思考と教育なしにデータマイニング/統計分析を行うべきではありません。統計の仕組みは人間にとって直感に反するものであり、(自分自身や他の人を) 簡単にだますことができます。

于 2009-07-30T07:12:52.703 に答える