約 150 個の異なるプロパティを持つ約 10,000 個のオブジェクトのセットがあり、その約 4 分の 1 は多値であるか、他のプロパティに関連しています。
これらのオブジェクトを分類したい約 120 のカテゴリのセットがあり、各カテゴリは「テンプレート」オブジェクトとして定義されています。インスタンスがテンプレートと完全に一致する場合、そのオブジェクトは明らかにそのカテゴリに含まれます...ただし、完全に一致するテンプレートを実際に持っているオブジェクトは約 10% にすぎません。その結果、カテゴリとの類似性に基づいてオブジェクトにスコアを付け、それらを最も一致するものに分類できるようにしたいと考えています。また、非常に類似したオブジェクトのクラスターを特定したいと思います。これは、新しい/洗練されたカテゴリの可能性を示しています。
これは、Weka、RapidMiner、またはその他の機械学習/クラスタリング/分類システムの仕事のようです。しかし、この分野の優れた入門資料を見つけるのに苦労しているため、この場合にこれらのツールを使用するのにどれだけの労力がかかるかわかりません。これは継続的なニーズになる可能性があるため、分析方法や重みなどを簡単に変更できるものを使用したいと考えています.
考え?