多かれ少なかれ同じ製品を表すリストがあります。たとえば、以下のリストでは、これらはすべてSeagateハードドライブです。
- Seagateハードドライブ500Go
- ラップトップ用のSeagateハードドライブ120Go
- Seagate Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/sハードドライブ
- Seagateの新しくて光沢のある500Goハードドライブ
- Seagate Barracuda 7200.12
- Seagate FreeAgentDesk500GB外付けハードドライブSilver7200RPMUSB2.0 Retail
人間の場合、ハードドライブ3と5は同じです。もう少し進んで、製品1、3、4、および5が同じであり、他のカテゴリーに製品2および6を入れると仮定することができます。
分類したい製品の膨大なリストがあります。誰かがそのようなことをするための最良のアルゴリズムが何であるかについての考えを持っていますか?助言がありますか?
私はベイズ分類器のことを考えていますが、それが最良の選択であるかどうかはわかりません。どんな助けでもいただければ幸いです!
ありがとう。