全体的な顧客満足度を判断するための調査が行われ、20 の一般的な質問と、「全体的な満足度は 1 ~ 10 ですか」という最終的な要約の質問がある場合、どの質問が要約の質問の回答に最も大きく関連しているかをどのように判断できますか?
要するに、どの質問が実際に重要であり、どの質問がアンケートのスペースを無駄にしているのか...
全体的な顧客満足度を判断するための調査が行われ、20 の一般的な質問と、「全体的な満足度は 1 ~ 10 ですか」という最終的な要約の質問がある場合、どの質問が要約の質問の回答に最も大きく関連しているかをどのように判断できますか?
要するに、どの質問が実際に重要であり、どの質問がアンケートのスペースを無駄にしているのか...
特定の機能の関連性に関する情報は、これらの機能に関連付けられた線形分類と回帰の重みによって得られます。
特定のアプリケーションでは、L1 または L0 正則化リグレッサーのトレーニングを試すことができます ( http://en.wikipedia.org/wiki/Least-angle_regression、http://en.wikipedia.org/wiki/Matching_pursuit )。これらの正則化は、回帰の重みの多くを強制的にゼロにします。つまり、これらの重みに関連付けられた機能を効果的に無視できます。
この質問に答えるために、そしてさまざまなレベルの洗練度で、多くの異なるアプローチがあります。まず、回答のすべてのペアごとの組み合わせの相関行列を計算し、それによって、どの個々の質問が全体的な満足度スコアと最も(または最も負に)相関しているかを示します。これは、AnalysisToolPakを使用したExcelでは非常に簡単です。
次に、必要な場合にのみ、単純なものから始めて洗練されたものへと進むクラスタリング手法について検討します。この調査データが適用されるドメインについて何も知らないので、どのアルゴリズムが最も効果的であるかを言うのは難しいですが、最初に、クラスターがすべて同じサイズである可能性が高い場合は、k-meansとバリアントを調べます。ただし、応答の大部分が非常に類似している場合は、期待値最大化ベースのアルゴリズムを調べます。データを探索し、さまざまなアルゴリズムの有効性をテストするための優れたオープンソースツールキットはWekaと呼ばれます。