machine-learning - ドキュメント分類、しきい値検出のための重心アルゴリズム

Question

特定のドメインに関連するドキュメントのコレクションがあり、そのコレクションに基づいて重心分類器をトレーニングしました。私がやりたいことは、さまざまなドメインからのドキュメントを分類器に供給し、それらがトレーニングされたドメインにどの程度関連しているかを判断したいということです。これにコサイン類似度を使用して数値を取得できますが、私の質問は、しきい値を決定する最良の方法は何ですか?

このために、さまざまなドメインからいくつかのドキュメントをダウンロードし、それらの類似性スコアを調べてしきい値を決定できます。しかし、これは進むべき道なのだろうか?統計的には良いように聞こえるだろうか? これに対する他のアプローチは何ですか？

score 0 · Accepted Answer

試してみる簡単な方法は、さまざまな機械学習アルゴリズム、特にツリーベースのアルゴリズムを重心からの距離に適用することです。

別の回答（@Anony-Mousse）で述べたように、これは必ずしも適切な回答または使用可能な回答を提供するとは限りませんが、そうなる可能性があります。この手順に ML フレームワーク (WEKA など) を使用すると、より厳密な方法で精度を推定するのにも役立ちます。

WEKAを使用して実行する手順は次のとおりです。

各クラスを表す適切な量のドキュメントを見つけて、トレーニングセットを生成します (有効な見積もりを得るには、クラスごとに少なくとも数十をお勧めします)。
各ドキュメントから各重心までの距離を計算します。
このドキュメントから重心までの距離で構成される、そのようなドキュメントごとに特徴ベクトルを生成します。単一の機能、つまり最も近い重心までの距離を使用できます。または、より精巧なしきい値スキームを試してみたい場合は、すべての距離を使用してください。たとえば、単一の特徴を使用するより単純な方法を選択した場合、最も近い重心までの距離が 0.2 で、クラス A に属するドキュメントを表すベクトルは、"0.2,A" になります。
このセットを ARFF または CSV 形式で保存し、WEKA にロードして、たとえば J48 ツリーを使用して分類してみてください。
結果は、詳細な混同行列を含む全体的な精度の推定を提供し、もちろん、ツリーなどの特定のモデルを使用して、追加のドキュメントを分類するために使用できます。
これらの結果を使用して、重心を再作成するか、しきい値分類器を再トレーニングすることにより、問題のあるクラスの追加のトレーニングドキュメントを収集することにより、モデルとしきい値を繰り返し改善できます。

machine-learning - ドキュメント分類、しきい値検出のための重心アルゴリズム

2 に答える 2

Related

Reference