scikit-learn - この不均衡なテキスト分類タスクに scikit-learn を適用するのに助けが必要です

Question

マルチクラスのテキスト分類/分類の問題があります。K相互に排他的な異なるクラスを持つグラウンドトゥルースデータのセットがあります。これは、2 つの点でアンバランスな問題です。まず、一部のクラスは他のクラスよりも頻繁に行われます。第 2 に、一部のクラスは他のクラスよりも重要です (それらは一般に相対頻度と正の相関がありますが、かなりまれなクラスもあります)。

私の目標は、単一の分類器またはそれらのコレクションを開発してk << K、関心のあるクラスを高精度 (少なくとも 80%) で分類できるようにすると同時に、妥当な再現率を維持することです (「妥当」とは少しあいまいです)。

私が使用する機能は、主に典型的なユニグラム/バイグラムベースの機能に加えて、分類されている着信ドキュメントのメタデータに由来するいくつかのバイナリ機能 (電子メールまたは Web フォーム経由で送信されたものなど) です。

データのバランスが取れていないため、マルチクラス SVM のような単一の分類器ではなく、重要なクラスごとにバイナリ分類器を開発することに傾倒しています。

に実装されている ML 学習アルゴリズム (バイナリかどうかに関係なく) は、scikit-learn精度に合わせて調整されたトレーニングを可能にします (たとえば、リコールや F1 ではなく)。そのためにどのオプションを設定する必要がありますか?

scikit-learn特定のクラスの精度指向の分類に最も関連する機能を絞り込むための機能選択に使用できるデータ分析ツールはどれですか?

これは実際には「ビッグデータ」の問題ではありません。約、約です。トレーニングとテストに使用できるサンプルの総数は約Kです。100k15100,000

どうも

score 0 · Accepted Answer

k が小さいことを考えると、これを手動で行うだけです。目的のクラスごとに、個々の (1 つと残りの) 分類器をトレーニングし、精度と再現率の曲線を見て、目的の精度を与えるしきい値を選択します。

scikit-learn - この不均衡なテキスト分類タスクに scikit-learn を適用するのに助けが必要です

1 に答える 1

Related

Reference