0

stat stack exchangeに質問を投稿しましたが、残念ながら今のところ回答が得られていないため、ここにコピーして誰かが助けてくれることを願っています.

私は機械学習の初心者です。最近、私はこれについて何かを学ぼうとしましたが、次の懸念がありました。

カテゴリ別に分類された製品があります。また、性別とデバイスのモデル情報を持つユーザーがいます。

まず、カテゴリと性別+デバイス情報が関連付けられているかどうかを調べるカイ二乗検定を行いました。たとえば、私の p 値は 0.000012 なので、ユーザー (性別 + デバイス) がカテゴリに関連付けられていると述べました。

したがって、新しいユーザーが性別 (女性) + デバイス (iPhone) を持っている場合:

  1. カイ二乗検定の結果として、性別 + デバイスとカテゴリの間に関連性があるはずです。というわけで、iPhoneを使っている女性が消費した上位10のカテゴリーを選んでみました。リストを取得しました。たとえば、[1. ファッション、2.モバイル機器、3.カメラ、4.家具、5.自転車など]

  2. また、カテゴリに対して (ユーザー情報なしで) Z テストを行い、リストを取得しました (Z スコアが高いほど上に表示されます)。モバイル デバイス、2. 自転車、3. ファッション、4. ラップトップなど]

この場合、そのユーザーにどのリストを提供すればよいでしょうか? またはそれらを組み合わせる可能性はありますか?それとも私は何か間違ったことをしましたか?

前もって感謝します :-)

4

1 に答える 1

0

厳密に言えば、どのテストも適切ではありません。両方のテストで、帰無仮説(性別とモデルはカテゴリに関連していない) があり、この仮説が間違っている確率を見つけようとしています。ただし、これらの 2 つのテストはパラメトリック テストです。つまり、結果が正しいためには、確率が特定の分布 (それぞれカイ 2 乗分布と正規分布) に従うことを知る必要があります。あなたの場合、そのような仮定を行うことはできないため、テストは適切ではありません。有意性検定を使用する場合は、ノンパラメトリック検定を使用する必要があります。Wilcoxon 検定と Friedman 検定が最も一般的です。ただし、有意性検定は通常、問題が解決された後に使用されます。達成された結果が運に起因するかどうかを確認します。それらは問題を解決するために使用されません。

性別、モデル、およびカテゴリの間の相関を見つけたい場合は、ピアソン相関クラス内相関などの相関係数を使用する必要があります。ただし、データを詳細に説明していないため、何を達成しようとしているのかわかりません。性別とモデルのみに基づいて、おそらく最も安全で簡単な方法は、iPhone を使用する女性が最もアクセスしたカテゴリ (出現回数) を返すことです。

于 2014-11-25T11:24:27.600 に答える