0

マルチクラスのテキスト分類/分類の問題があります。K相互に排他的な異なるクラスを持つグラウンド トゥルース データのセットがあります。これは、2 つの点でアンバランスな問題です。まず、一部のクラスは他のクラスよりも頻繁に行われます。第 2 に、一部のクラスは他のクラスよりも重要です (それらは一般に相対頻度と正の相関がありますが、かなりまれなクラスもあります)。

私の目標は、単一の分類器またはそれらのコレクションを開発してk << K、関心のあるクラスを高精度 (少なくとも 80%) で分類できるようにすると同時に、妥当な再現率を維持することです (「妥当」とは少しあいまいです)。

私が使用する機能は、主に典型的なユニグラム/バイグラム ベースの機能に加えて、分類されている着信ドキュメントのメタデータに由来するいくつかのバイナリ機能 (電子メールまたは Web フォーム経由で送信されたものなど) です。

データのバランスが取れていないため、マルチクラス SVM のような単一の分類器ではなく、重要なクラスごとにバイナリ分類器を開発することに傾倒しています。

に実装されている ML 学習アルゴリズム (バイナリかどうかに関係なく) は、scikit-learn精度に合わせて調整されたトレーニングを可能にします (たとえば、リコールや F1 ではなく)。そのためにどのオプションを設定する必要がありますか?

scikit-learn特定のクラスの精度指向の分類に最も関連する機能を絞り込むための機能選択に使用できるデータ分析ツールはどれですか?

これは実際には「ビッグデータ」の問題ではありません。約、約 です。トレーニングとテストに使用できるサンプルの総数は約Kです。100k15100,000

どうも

4

1 に答える 1

0

k が小さいことを考えると、これを手動で行うだけです。目的のクラスごとに、個々の (1 つと残りの) 分類器をトレーニングし、精度と再現率の曲線を見て、目的の精度を与えるしきい値を選択します。

于 2015-10-29T15:53:20.130 に答える