0

100 人の回答者が回答した 20 の多肢選択問題 (A/B/C/D) からなる一連のトレーニング データがあります。答えは純粋にカテゴリーであり、数値にスケーリングすることはできません。これらの回答者のうち 50 人が無料の製品トライアルに選ばれました。選考過程は不明。この情報からどのような興味深い知識を引き出すことができますか?

以下は、これまでに思いついたもののリストです-

  • パーセンテージの調査 (例 - Q.5 で B と回答し、製品の無料トライアルに選ばれた人の割合)
  • 条件付き確率 (例 - Qs.5 で B と答えた人が無料の製品トライアルに選ばれる確率は?)
  • Naive Bayesian classifier (これは、質問のサブセットの特定の値のセットに対して人が選択されるかどうかを予測するために使用できます)。

他に実行できる興味深い分析やデータマイニング活動はありますか?

応答は定量化/スコア化できないため、相関関係などの通常の疑いは排除できます。

私のアプローチは正しいですか?

4

2 に答える 2

2

一種のリバースエンジニアリングです。

回答者ごとに、20 の回答と、この回答者が製品の試用版を取得するかどうかを示す 1 つのラベルがあります。

あなたは、20 の質問のうちどれがgive trial or not意思決定に重要かを知りたいと考えています。まず、トレーニング データに基づいて決定木モデルを構築することをお勧めします。そして、ツリーを注意深く調べて、いくつかの洞察を得ます。たとえば、低レベルの決定ノードには、最も識別力のある質問が含まれています。

于 2010-05-24T13:19:59.247 に答える
1

回答は、分析目的で数値にすることができます。例:

RespondentID  IsSelected  Q1AnsA  Q1AnsB  Q1AnsC  Q1AnsD  Q2AnsA...
12345         1           0       0       1       0       0
  1. 関連分析を使用して、回答にパターンがあるかどうかを確認します。

Q3AnsC + Q8AnsB -> IsSelected

  1. 分類 (ロジスティック回帰やデシジョン ツリーなど) を使用して、ユーザーの選択方法をモデル化します。

  2. クラスタリングを使用します。明確な回答者グループはありますか? それらはどのような点で異なりますか?クラスターの数を決定するには、「エルボー」またはスクリー法を使用します。

  3. 人口統計など、回答者に関するその他の情報はありますか? そんな時はピボットテーブルが便利です。

  4. 欠落しているデータはありますか?人々が質問をスキップする方法にパターンはありますか?

于 2010-05-25T04:13:40.113 に答える