7

FastText では、ラベルのバランスが取れていません。それを処理する最良の方法は何ですか?

4

2 に答える 2

1

この例では、 200 以上のクラス、全データの 80% を含むクラスの20%を持つ非常に偏ったデータセットがあります。

私たちのデータでは、この非常に歪んだデータでも、カテゴリ内のテキストを明確に定義しています。

: マジョリティ クラスのテキスト: 「ねえ、インターネットを開いてプログラミングの回答をStack Overflowに投稿するには、コンピューターマウス が必要です」

少数派のテキスト: 「ねえ、次のアイテムをくれませんか:レタスタマネギトマト牛乳小麦?

上記の私のケースのように非常に明確に定義されたカテゴリがある場合、FastText は WordNGrams と階層分割を処理するため、アルゴリズムの性質上、不均衡は問題になりません。

参照:効率的なテキスト分類のための秘訣の袋- Armand Joulin、Edouard Grave、Piotr Bojanowski、Tomas Mikolov

于 2019-03-21T12:20:49.603 に答える