マルチラベル分類の問題に対処するアプローチについて質問があります。
文献レビューに基づいて、最も一般的に使用されるアプローチの 1 つが問題変換アプローチであることがわかりました。マルチラベルの問題をいくつかの単一ラベルの問題に変換し、分類結果は、バイナリ関連アプローチを使用して、各単一ラベル分類子の単純な和集合になります。
単一ラベルの問題は、バイナリ分類 (ラベルが 2 つある場合) またはマルチクラス分類問題 (ラベルが複数ある場合、つまりラベル >2 の場合) のいずれかに分類できるため、現在の変換アプローチはすべて、マルチラベル問題を多数のラベルに変換するようです。バイナリの問題。ただし、これはデータの不均衡の問題を引き起こす可能性があります。これは、ネガティブ クラスがポジティブ クラスよりもはるかに多くのドキュメントを持つ可能性があるためです。
ですから、私の質問は、いくつかのマルチクラスの問題に変換してから、直接マルチクラス分類アルゴリズムを適用して、データの不均衡の問題を回避してみませんか。この場合、1 つのテスト ドキュメントに対して、トレーニング済みの各単一ラベル マルチクラス分類器がラベルを割り当てるかどうかを予測し、そのような単一ラベル マルチクラス分類器の予測結果すべての和集合が、そのテスト ドキュメントのラベルの最終セットになります。
要約すると、マルチラベル分類問題を多数のバイナリ分類問題に変換するのと比較して、マルチラベル分類問題を多数のマルチクラス分類問題に変換すると、データの不均衡の問題を回避できます。これ以外は、上記の 2 つの方法ですべて同じままです: |L|(|L| は分類問題における異なるラベルの総数を意味します) 単一ラベル (バイナリまたはマルチクラス) 分類器を構築する必要があります。準備 |L| トレーニング データとテスト データのセットの場合、テスト ドキュメントで各単一ラベル分類器をテストする必要があり、各単一ラベル分類器の予測結果の和集合が、テスト ドキュメントの最終的なラベル セットになります。
誰かが私の混乱を明確にするのを手伝ってくれることを願っています、どうもありがとう!