テキストの自動分類を実行するプロジェクトに取り組んでいます。次のようなデータセットがたくさんあります。
テキスト | 種別名
xxxxx... | AA
yyyyy... | BB
zzzz... | AA
次に、上記のデータセットを使用して分類子を生成します。新しいテキストが来ると、分類子は新しいテキストに正しい CategoryName のラベルを付けることができます (テキストは自然言語で、サイズは 10 ~ 10000 です)。
ここで問題は、元のデータセットに誤ったデータが含まれていることです (たとえば、AAA はカテゴリ AA とラベル付けされるべきですが、誤ってカテゴリ BB とラベル付けされています)。これらのデータは手動で分類されているためです。また、すべてのデータを手動で確認することはできないため、どのラベルが間違っているのか、何パーセントが間違っているのかわかりません...
私の質問は、どうすればいいですか?
- 自動的な方法で間違ったラベルを見つけることはできますか?
- 新しいデータが入ってきたときに精度と再現率を高める方法は?
- 間違ったデータの影響を評価する方法は? (何パーセントのデータが間違っているか分からないので)
- 他の提案はありますか?