保険契約に関する情報を含むデータベースでデータ マイニング タスクを実行する必要があります。各タプルは、単一のポリシーに関するデータを、それを発行した機関、それが参照している顧客、およびその他のフィールドに関する情報とともに示します。これは、架空のテーブル ポリシー、顧客、および機関の間の製品のようなものです。フィールドは次のとおりです。
ポリシーの種類、ID 番号、ポリシーのステータス、商品の説明、商品の組み合わせ、発行日、発効日、満期日、保険期間、ローン期間、解約日、解約の理由、合計保険料、スプリッター保険料、ID パートナー、ID エージェンシー、国代理店、ID ゾーン、代理店の可能性、性別契約者、誕生年契約者、雇用契約者、性別被保険者、雇用被保険者、誕生年被保険者、製品エリア、法的形態、ID クレーム、年クレーム、ステータスクレーム、規定クレーム、支払いクレーム
これは学術的な課題であり、教授は解約率、クロスセリング、アップセリングを特定することを望んでいます。私はこの分野にあまり詳しくないので、ウィキペディアでそれらの用語を探しました。解約率から始めましたが、この場合、ポリシー ステータスが「キャンセル」に設定され、キャンセルの理由が「顧客のキャンセル」である顧客の特性を特徴付ける必要があるように思われます。
Rapid Miner を使用して、デシジョン ツリーとルール マイニングを適用しようとしましたが、関心のあるサブセットが非常に小さいため、出力モデルは、全体的には精度が高いにもかかわらず、取り消されたポリシーを予測する精度が非常に低くなります。これは、キャンセルされたポリシーのサブセットが非常に小さいために発生します。また、キャンセルされたポリシーを誤分類するコストが他のポリシーに比べて法外に高い (100 万倍など) 特定のコスト マトリックスを使用して MetaCost 演算子を適用しようとしましたが、結果はまったく変わりませんでした。
現在の私の最善の選択肢は、ルール マイニングにシーケンシャル カバー アルゴリズムを使用することですが、ラピッド マイナーはそれを実装していないため、手動でコーディングする必要があります。
キャンセルされたポリシーの小さなサブセットに対して適切なモデルを構築する方法について何か提案はありますか?
注: 匿名ではありますが、実際の情報源からのものであるため、データベースやそこに含まれるデータを開示することはできません。