マルチクラスのテキスト分類/分類の問題があります。K
相互に排他的な異なるクラスを持つグラウンド トゥルース データのセットがあります。これは、2 つの点でアンバランスな問題です。まず、一部のクラスは他のクラスよりも頻繁に行われます。第 2 に、一部のクラスは他のクラスよりも重要です (それらは一般に相対頻度と正の相関がありますが、かなりまれなクラスもあります)。
私の目標は、単一の分類器またはそれらのコレクションを開発してk << K
、関心のあるクラスを高精度 (少なくとも 80%) で分類できるようにすると同時に、妥当な再現率を維持することです (「妥当」とは少しあいまいです)。
私が使用する機能は、主に典型的なユニグラム/バイグラム ベースの機能に加えて、分類されている着信ドキュメントのメタデータに由来するいくつかのバイナリ機能 (電子メールまたは Web フォーム経由で送信されたものなど) です。
データのバランスが取れていないため、マルチクラス SVM のような単一の分類器ではなく、重要なクラスごとにバイナリ分類器を開発することに傾倒しています。
に実装されている ML 学習アルゴリズム (バイナリかどうかに関係なく) は、scikit-learn
精度に合わせて調整されたトレーニングを可能にします (たとえば、リコールや F1 ではなく)。そのためにどのオプションを設定する必要がありますか?
scikit-learn
特定のクラスの精度指向の分類に最も関連する機能を絞り込むための機能選択に使用できるデータ分析ツールはどれですか?
これは実際には「ビッグデータ」の問題ではありません。約、約 です。トレーニングとテストに使用できるサンプルの総数は約K
です。100
k
15
100,000
どうも