data-mining - 大規模なデータベースから小さくて独特なサブセットを分類する方法は?

Question

保険契約に関する情報を含むデータベースでデータマイニングタスクを実行する必要があります。各タプルは、単一のポリシーに関するデータを、それを発行した機関、それが参照している顧客、およびその他のフィールドに関する情報とともに示します。これは、架空のテーブルポリシー、顧客、および機関の間の製品のようなものです。フィールドは次のとおりです。

ポリシーの種類、ID 番号、ポリシーのステータス、商品の説明、商品の組み合わせ、発行日、発効日、満期日、保険期間、ローン期間、解約日、解約の理由、合計保険料、スプリッター保険料、ID パートナー、ID エージェンシー、国代理店、ID ゾーン、代理店の可能性、性別契約者、誕生年契約者、雇用契約者、性別被保険者、雇用被保険者、誕生年被保険者、製品エリア、法的形態、ID クレーム、年クレーム、ステータスクレーム、規定クレーム、支払いクレーム

これは学術的な課題であり、教授は解約率、クロスセリング、アップセリングを特定することを望んでいます。私はこの分野にあまり詳しくないので、ウィキペディアでそれらの用語を探しました。解約率から始めましたが、この場合、ポリシーステータスが「キャンセル」に設定され、キャンセルの理由が「顧客のキャンセル」である顧客の特性を特徴付ける必要があるように思われます。

Rapid Miner を使用して、デシジョンツリーとルールマイニングを適用しようとしましたが、関心のあるサブセットが非常に小さいため、出力モデルは、全体的には精度が高いにもかかわらず、取り消されたポリシーを予測する精度が非常に低くなります。これは、キャンセルされたポリシーのサブセットが非常に小さいために発生します。また、キャンセルされたポリシーを誤分類するコストが他のポリシーに比べて法外に高い (100 万倍など) 特定のコストマトリックスを使用して MetaCost 演算子を適用しようとしましたが、結果はまったく変わりませんでした。

現在の私の最善の選択肢は、ルールマイニングにシーケンシャルカバーアルゴリズムを使用することですが、ラピッドマイナーはそれを実装していないため、手動でコーディングする必要があります。

キャンセルされたポリシーの小さなサブセットに対して適切なモデルを構築する方法について何か提案はありますか?

注: 匿名ではありますが、実際の情報源からのものであるため、データベースやそこに含まれるデータを開示することはできません。

score 0 · Accepted Answer

クラス（キャンセルされた/キャンセルされていない）が同じサイズになるように、データセットのバランスを取る必要があります。これは、(一時的に) 大量のデータを破棄することを意味します。

これを行うには、Sample オペレーターを Balance Labels チェックボックスとともに使用できます。

data-mining - 大規模なデータベースから小さくて独特なサブセットを分類する方法は?

2 に答える 2

Related

Reference