特定のドメインに関連するドキュメントのコレクションがあり、そのコレクションに基づいて重心分類器をトレーニングしました。私がやりたいことは、さまざまなドメインからのドキュメントを分類器に供給し、それらがトレーニングされたドメインにどの程度関連しているかを判断したいということです。これにコサイン類似度を使用して数値を取得できますが、私の質問は、しきい値を決定する最良の方法は何ですか?
このために、さまざまなドメインからいくつかのドキュメントをダウンロードし、それらの類似性スコアを調べてしきい値を決定できます。しかし、これは進むべき道なのだろうか?統計的には良いように聞こえるだろうか? これに対する他のアプローチは何ですか?