データマイニングの分野で、1対多の関係にあるデータを分類する研究はありますか?
このような問題の例として、クラスの成績と個人情報に基づいて、どの学生が大学を中退するかを予測しようとしているとします。明らかに、生徒の個人情報とクラスでの成績の間には 1 対多の関係があります。
明らかなアプローチには次のものがあります。
集約- 複数のレコードを何らかの方法で集約して、問題を基本的な分類の問題に減らすことができます。学生の分類の場合、成績の平均を個人データと組み合わせることができます。このソリューションは単純ですが、多くの場合、重要な情報が失われます。たとえば、有機化学を履修して C- を下回った学生のほとんどが、平均が B+ を上回っていたとしても中退してしまうとしたらどうなるでしょうか。
投票- 複数の分類器 (多くの場合、弱いもの) を作成し、投票を行って、問題のデータの全体的なクラスを決定します。これは、学生のコース データ用と個人データ用の 2 つの分類器が構築された場合のようなものです。各コース レコードはコース分類子に渡され、成績とコース名に基づいて、分類子はそのコース レコードのみを使用して学生が中退するかどうかを予測します。個人データ レコードは、個人データ分類子を使用して分類されます。次に、すべてのクラス記録予測と個人情報記録予測が一緒に投票されます。この投票はさまざまな方法で行うことができますが、最も可能性が高いのは、分類子の精度と分類子の投票の確実性を考慮に入れることです。明らかに、このスキームは集約よりも複雑な分類パターンを可能にしますが、さらに多くの複雑さが伴います。また、投票がうまく行われないと、精度が低下しやすくなります。
そのため、1対多の関係でデータを分類するための他の可能な解決策を探しています。