1

これは私の上にあると感じているので、皆さんがこれを整理するのを手伝ってくれることを願っています. 一部の人にとってはばかげているかもしれませんが、私は道に迷っており、アドバイスを求めてあなたのところに来ました.

統計、データ分析、ビッグデータは初めてです。勉強を始めたばかりで、チャーン予測に関するプロジェクトを作成する必要があります。はい、これは一種の宿題ですが、私の質問のいくつかに答えていただければ幸いです。

初心者レベルの段階的な回答に最も感謝しています。

基本的に、私は携帯電話会社からの 3 か月間の顧客活動データに関する非常に大きなデータ セット (明らかに) を持っています。各月には次の列があります。

['year',
 'month',
 'user_account_id',
 'user_lifetime',
 'user_intake',
 'user_no_outgoing_activity_in_days',
 'user_account_balance_last',
 'user_spendings',
 'user_has_outgoing_calls',
 'user_has_outgoing_sms',
 'user_use_gprs',
 'user_does_reload',
 'reloads_inactive_days',
 'reloads_count',
 'reloads_sum',
 'calls_outgoing_count',
 'calls_outgoing_spendings',
 'calls_outgoing_duration',
 'calls_outgoing_spendings_max',
 'calls_outgoing_duration_max',
 'calls_outgoing_inactive_days',
 'calls_outgoing_to_onnet_count',
 'calls_outgoing_to_onnet_spendings',
 'calls_outgoing_to_onnet_duration',
 'calls_outgoing_to_onnet_inactive_days',
 'calls_outgoing_to_offnet_count',
 'calls_outgoing_to_offnet_spendings',
 'calls_outgoing_to_offnet_duration',
 'calls_outgoing_to_offnet_inactive_days',
 'calls_outgoing_to_abroad_count',
 'calls_outgoing_to_abroad_spendings',
 'calls_outgoing_to_abroad_duration',
 'calls_outgoing_to_abroad_inactive_days',
 'sms_outgoing_count',
 'sms_outgoing_spendings',
 'sms_outgoing_spendings_max',
 'sms_outgoing_inactive_days',
 'sms_outgoing_to_onnet_count',
 'sms_outgoing_to_onnet_spendings',
 'sms_outgoing_to_onnet_inactive_days',
 'sms_outgoing_to_offnet_count',
 'sms_outgoing_to_offnet_spendings',
 'sms_outgoing_to_offnet_inactive_days',
 'sms_outgoing_to_abroad_count',
 'sms_outgoing_to_abroad_spendings',
 'sms_outgoing_to_abroad_inactive_days',
 'sms_incoming_count',
 'sms_incoming_spendings',
 'sms_incoming_from_abroad_count',
 'sms_incoming_from_abroad_spendings',
 'gprs_session_count',
 'gprs_usage',
 'gprs_spendings',
 'gprs_inactive_days',
 'last_100_reloads_count',
 'last_100_reloads_sum',
 'last_100_calls_outgoing_duration',
 'last_100_calls_outgoing_to_onnet_duration',
 'last_100_calls_outgoing_to_offnet_duration',
 'last_100_calls_outgoing_to_abroad_duration',
 'last_100_sms_outgoing_count',
 'last_100_sms_outgoing_to_onnet_count',
 'last_100_sms_outgoing_to_offnet_count',
 'last_100_sms_outgoing_to_abroad_count',
 'last_100_gprs_usage']

この宿題の最終結果は、k-means クラスター分析とチャーン予測モデルです。

このデータセットに関する私の最大の頭痛の種は次のとおりです。

これらの変数のほとんどを含む月次データのクラスター分析を行うには? 例を探してみましたが、1 か月に 1 つの変数を分析する例か、1 か月に多数の変数を分析する例を見つけました。

Python と Spark を使用しています。

月と変数の巨大なリストをどうするかを知っている限り、それを機能させることができると思います。

ありがとう、あなたの助けは大歓迎です!

PSコード例は多すぎて質問できませんか?

4

1 に答える 1

1

ここで k-means を使用するのはなぜですか?

  1. k-means は、そのようなデータに対して意味のあることは何もしません。スケーリングと属性タイプ (年、月など) に敏感すぎる

  2. 解約予測は教師あり問題です。教師あり問題に教師なしアルゴリズムを使用しないでください。つまり、検索の指針となる最も価値のある単一の情報を無視していることになります。

于 2016-12-20T19:39:30.670 に答える