これは私の上にあると感じているので、皆さんがこれを整理するのを手伝ってくれることを願っています. 一部の人にとってはばかげているかもしれませんが、私は道に迷っており、アドバイスを求めてあなたのところに来ました.
統計、データ分析、ビッグデータは初めてです。勉強を始めたばかりで、チャーン予測に関するプロジェクトを作成する必要があります。はい、これは一種の宿題ですが、私の質問のいくつかに答えていただければ幸いです。
初心者レベルの段階的な回答に最も感謝しています。
基本的に、私は携帯電話会社からの 3 か月間の顧客活動データに関する非常に大きなデータ セット (明らかに) を持っています。各月には次の列があります。
['year',
'month',
'user_account_id',
'user_lifetime',
'user_intake',
'user_no_outgoing_activity_in_days',
'user_account_balance_last',
'user_spendings',
'user_has_outgoing_calls',
'user_has_outgoing_sms',
'user_use_gprs',
'user_does_reload',
'reloads_inactive_days',
'reloads_count',
'reloads_sum',
'calls_outgoing_count',
'calls_outgoing_spendings',
'calls_outgoing_duration',
'calls_outgoing_spendings_max',
'calls_outgoing_duration_max',
'calls_outgoing_inactive_days',
'calls_outgoing_to_onnet_count',
'calls_outgoing_to_onnet_spendings',
'calls_outgoing_to_onnet_duration',
'calls_outgoing_to_onnet_inactive_days',
'calls_outgoing_to_offnet_count',
'calls_outgoing_to_offnet_spendings',
'calls_outgoing_to_offnet_duration',
'calls_outgoing_to_offnet_inactive_days',
'calls_outgoing_to_abroad_count',
'calls_outgoing_to_abroad_spendings',
'calls_outgoing_to_abroad_duration',
'calls_outgoing_to_abroad_inactive_days',
'sms_outgoing_count',
'sms_outgoing_spendings',
'sms_outgoing_spendings_max',
'sms_outgoing_inactive_days',
'sms_outgoing_to_onnet_count',
'sms_outgoing_to_onnet_spendings',
'sms_outgoing_to_onnet_inactive_days',
'sms_outgoing_to_offnet_count',
'sms_outgoing_to_offnet_spendings',
'sms_outgoing_to_offnet_inactive_days',
'sms_outgoing_to_abroad_count',
'sms_outgoing_to_abroad_spendings',
'sms_outgoing_to_abroad_inactive_days',
'sms_incoming_count',
'sms_incoming_spendings',
'sms_incoming_from_abroad_count',
'sms_incoming_from_abroad_spendings',
'gprs_session_count',
'gprs_usage',
'gprs_spendings',
'gprs_inactive_days',
'last_100_reloads_count',
'last_100_reloads_sum',
'last_100_calls_outgoing_duration',
'last_100_calls_outgoing_to_onnet_duration',
'last_100_calls_outgoing_to_offnet_duration',
'last_100_calls_outgoing_to_abroad_duration',
'last_100_sms_outgoing_count',
'last_100_sms_outgoing_to_onnet_count',
'last_100_sms_outgoing_to_offnet_count',
'last_100_sms_outgoing_to_abroad_count',
'last_100_gprs_usage']
この宿題の最終結果は、k-means クラスター分析とチャーン予測モデルです。
このデータセットに関する私の最大の頭痛の種は次のとおりです。
これらの変数のほとんどを含む月次データのクラスター分析を行うには? 例を探してみましたが、1 か月に 1 つの変数を分析する例か、1 か月に多数の変数を分析する例を見つけました。
Python と Spark を使用しています。
月と変数の巨大なリストをどうするかを知っている限り、それを機能させることができると思います。
ありがとう、あなたの助けは大歓迎です!
PSコード例は多すぎて質問できませんか?