-1

学術的なプロジェクトでは、保険会社の顧客データベースを分析する必要があります。この保険会社は、いくつかのことを特定したいと考えています。まず、何らかのオファーなどを行うために会社を辞める顧客を分類します。次に、どの顧客に対してアップセルまたはクロスセルを行うべきかを知りたいと考えています。保険金請求の観点から、危険な顧客を見つけることもできます。

そのため、最も重要と思われる顧客のキャンセルに焦点を当てています。

保険会社が提供する属性は次のとおりです。

バンドル/アンバンドル、ポリシー ステータス、ポリシー タイプ、ポリシーの組み合わせ、発行日、発効日、満期日、ポリシー期間、ローン期間、キャンセル日、キャンセルの理由、合計保険料、スプリッター プレミアム、パートナー ID、代理店 ID、国の代理店、ゾーンID、代理店ポテンシャル、性別契約者、誕生年契約者、雇用契約者、性別被保険者、雇用被保険者、誕生年被保険者、年次請求、請求ステータス、請求規定、請求支払

データベースは最大 20 万件のレコードで構成されており、一部の属性には多くの欠損値があります。Rapid Miner を使用してデータセットをマイニングし始めました。データセットを少しきれいにして、一貫性のない値や間違った値を削除しました。

次に、意思決定ツリーを適用して、ポリシー ステータス (発行、更新、またはキャンセル可能) から派生した isCanceled という新しい属性を追加し、それを意思決定ツリーのラベルとして使用してみました。ディシジョン ツリーのすべてのパラメーターを変更しようとしましたが、リーフ ノードが 1 つしかなく分割がないツリー、または 2 つのクラスのインスタンスがほぼ同じ数のリーフ ノードがあるため完全に無関係なツリーが得られます。これは本当にイライラしています。

おそらくRapid Minerを使用して、チャーン分析を行うための通常の手順を知りたいのですが..誰か助けてくれますか?

4

1 に答える 1