machine-learning - テキスト分類: マルチラベルテキスト分類とマルチクラステキスト分類

Question

マルチラベル分類の問題に対処するアプローチについて質問があります。

文献レビューに基づいて、最も一般的に使用されるアプローチの 1 つが問題変換アプローチであることがわかりました。マルチラベルの問題をいくつかの単一ラベルの問題に変換し、分類結果は、バイナリ関連アプローチを使用して、各単一ラベル分類子の単純な和集合になります。

単一ラベルの問題は、バイナリ分類 (ラベルが 2 つある場合) またはマルチクラス分類問題 (ラベルが複数ある場合、つまりラベル >2 の場合) のいずれかに分類できるため、現在の変換アプローチはすべて、マルチラベル問題を多数のラベルに変換するようです。バイナリの問題。ただし、これはデータの不均衡の問題を引き起こす可能性があります。これは、ネガティブクラスがポジティブクラスよりもはるかに多くのドキュメントを持つ可能性があるためです。

ですから、私の質問は、いくつかのマルチクラスの問題に変換してから、直接マルチクラス分類アルゴリズムを適用して、データの不均衡の問題を回避してみませんか。この場合、1 つのテストドキュメントに対して、トレーニング済みの各単一ラベルマルチクラス分類器がラベルを割り当てるかどうかを予測し、そのような単一ラベルマルチクラス分類器の予測結果すべての和集合が、そのテストドキュメントのラベルの最終セットになります。

要約すると、マルチラベル分類問題を多数のバイナリ分類問題に変換するのと比較して、マルチラベル分類問題を多数のマルチクラス分類問題に変換すると、データの不均衡の問題を回避できます。これ以外は、上記の 2 つの方法ですべて同じままです: |L|(|L| は分類問題における異なるラベルの総数を意味します) 単一ラベル (バイナリまたはマルチクラス) 分類器を構築する必要があります。準備 |L| トレーニングデータとテストデータのセットの場合、テストドキュメントで各単一ラベル分類器をテストする必要があり、各単一ラベル分類器の予測結果の和集合が、テストドキュメントの最終的なラベルセットになります。

誰かが私の混乱を明確にするのを手伝ってくれることを願っています、どうもありがとう!

machine-learning - テキスト分類: マルチラベル テキスト分類とマルチクラス テキスト分類

1 に答える 1

Related

Reference

machine-learning - テキスト分類: マルチラベルテキスト分類とマルチクラステキスト分類