FastText では、ラベルのバランスが取れていません。それを処理する最良の方法は何ですか?
質問する
1793 次
2 に答える
1
この例では、 200 以上のクラスと、全データの 80% を含むクラスの20%を持つ非常に偏ったデータセットがあります。
私たちのデータでは、この非常に歪んだデータでも、カテゴリ内のテキストを明確に定義しています。
例: マジョリティ クラスのテキスト: 「ねえ、インターネットを開いてプログラミングの回答をStack Overflowに投稿するには、コンピューターとマウス が必要です」
少数派のテキスト: 「ねえ、次のアイテムをくれませんか:卵、レタス、タマネギ、トマト、牛乳、小麦?」
上記の私のケースのように非常に明確に定義されたカテゴリがある場合、FastText は WordNGrams と階層分割を処理するため、アルゴリズムの性質上、不均衡は問題になりません。
参照:効率的なテキスト分類のための秘訣の袋- Armand Joulin、Edouard Grave、Piotr Bojanowski、Tomas Mikolov
于 2019-03-21T12:20:49.603 に答える