3

テキストの自動分類を実行するプロジェクトに取り組んでいます。次のようなデータセットがたくさんあります。

テキスト | 種別名

xxxxx... | AA

yyyyy... | BB

zzzz... | AA

次に、上記のデータセットを使用して分類子を生成します。新しいテキストが来ると、分類子は新しいテキストに正しい CategoryName のラベルを付けることができます (テキストは自然言語で、サイズは 10 ~ 10000 です)。

ここで問題は、元のデータセットに誤ったデータが含まれていることです (たとえば、AAA はカテゴリ AA とラベル付けされるべきですが、誤ってカテゴリ BB とラベル付けされています)。これらのデータは手動で分類されているためです。また、すべてのデータを手動で確認することはできないため、どのラベルが間違っているのか、何パーセントが間違っているのかわかりません...

私の質問は、どうすればいいですか?

  • 自動的な方法で間違ったラベルを見つけることはできますか?
  • 新しいデータが入ってきたときに精度と再現率を高める方法は?
  • 間違ったデータの影響を評価する方法は? (何パーセントのデータが間違っているか分からないので)
  • 他の提案はありますか?
4

3 に答える 3

4

明らかに、問題を解決する簡単な方法はありません。結局のところ、間違った分類を検出できるシステムが既にあるのに、なぜ分類器を構築する必要があるのでしょうか。

誤った分類が学習にどの程度影響するか知っていますか? それらの割合がごくわずかであれば、パフォーマンスに大きな影響を与えることはありません。(編集。ああ、どうやらそうではないようです。とにかく、試してみることをお勧めします-少なくとも、間違った結果が表示されたときにそれを特定できる場合。)

もちろん、いつでも最初にシステムをトレーニングしてから、トレーニング データの分類を提案させることができます。これは、欠陥のあるトレーニング データを特定 (および修正) するのに役立つ場合があります。これは明らかに、使用しているトレーニング データの量と、データが不完全であってもシステムが正しい分類を学習できるほど十分に広いかどうかによって異なります。

于 2013-01-22T14:24:41.273 に答える
1

データのいずれかを手動で確認して、誤ってラベル付けされた例を見つけることができますか? その場合、誤ったラベル付けに何らかのパターンがあると仮定して、2 つ目の分類器をトレーニングして、誤ったラベル付けされたデータを識別できる可能性があります。誤ったラベル付けが純粋にランダムなプロセス (トレーニング データの単なるノイズ) であるか、または誤ったラベル付けがデータの特定の特徴と相関しているかを知ることは役に立ちます。

トレーニング セットのどの部分が実際に誤ってラベル付けされているかを推定できない場合、特定のデータ セットに対する誤ってラベル付けされたデータの影響を評価することはできません。コメントで、〜5Mのレコードがあると述べています。数百に手動で正しくラベルを付けることができれば、そのデータセットで分類器をトレーニングし、ランダムなラベル付けを導入した後に分類器がどのように機能するかを確認できます。分類子への影響を確認するために、誤ったラベルが付けられたデータの割合を変えてこれを複数回行うことができます。

定性的には、誤ってラベル付けされたサンプルが大量にあるとオーバーフィッティングの影響が大きくなるため、分類子をデータセットにオーバーフィッティングしないことがさらに重要になります。テスト データ セットがある場合 (ラベル付けミスもあると仮定して)、テスト データ セットで最大分類精度よりも低い精度で分類子をトレーニングすることを検討してください。

于 2013-01-22T15:57:51.710 に答える
0

人々は通常、複数のアノテーターを持ち、それらの合意を計算することによって、あなたが説明する問題に対処します (たとえば、Fleiss のカッパ)。これは、多くの場合、分類器のパフォーマンスの上限と見なされます。3 人から 3 つの異なる答えが返された場合、そのタスクが非常に難しく、分類子にチャンスがないことがわかります。

余談ですが、誤ってラベル付けされたレコードの数がわからない場合は、問題の重要な特性の 1 つを理解していません。無作為に 1000 件のレコードを選択し、アイデアを得るためにラベルを確認するのに 1 日を費やします。それは本当によく使われた時間です。たとえば、1 時間に 500 件のラベル付きツイートを簡単に確認できることがわかりました。健康に関する警告: 非常に退屈ですが、午前中レビューに費やすと、アノテーターがどれほど気を散らしていたかがよくわかります。5% の記録が間違っていれば、それほど問題ではありません。50が間違っている場合は、上司に戻って、それはできないと伝えるべきです.

別の補足として、誰かがアクティブラーニングについて言及しました。ラベルを変更する必要があるかもしれないことを念頭に置いて、文献からオプションを調べる価値があると思います. あなたはそれが難しいと言った。

于 2013-01-23T11:29:09.823 に答える