重複するデータのセット間の共通点と相違点を識別するのに役立つアルゴリズムに関する情報が欲しいです。
例として、stackoverflow のタグ システムを使用します。
この質問に 5 つのタグが付けられたとします。これらのタグの少なくとも 1 つを持つ他の 1000 の質問があるとします。これらの 1000 の質問のうち、元の投稿にはないタグが共通している質問はいくつありますか?
これを説明するもう 1 つの簡単な方法は、自動提案タグ付けシステムです。
「[選択した 5 つのタグ] で質問にタグを付けました。他の同様の質問には [関心がある可能性のあるタグのリスト] がタグ付けされました。[関心がある可能性のあるタグのリスト] は、頻繁に発生するタグで私の元のリスト。
可能であればC#でのコード例:)