2

テキスト分類の問題(感情分析)を扱っています。scikit-learn に「重み」(重要性の尺度として) を機能に追加するオプションがあるかどうかを知りたいです。ドキュメントを確認したところ、以下に定義されているSVC の属性「coefs」が見つかりました。

    coef_   array, shape = [n_class-1, n_features]  
    Weights asigned to the features (coefficients in the primal problem). 
   This is only available in the case of linear kernel.coef_ is readonly property derived from dual_coef_ and support_vectors_ 

ただし、この属性は読み取り専用のようです。

4

1 に答える 1

5

coef_ベクトルは、機械学習アルゴリズムによって学習されたパラメーターのビューです。データから自動的に最適に調整されるため、手動で設定しても意味がありません。代わりにできることは次のとおりです。

  • 一部のクラスが他のクラスよりも重要であるという事前知識がある場合は、class_weight を設定します。

  • 一部のサンプル (データセット内の行) が他のサンプルよりも重要であるという事前知識がある場合は、sample_weight を設定します。

  • たとえば、RBF カーネルを使用していて、ある機能を他の機能よりも重要にしたい場合など、一部の機能を他の機能よりも分散させるように機能を再スケーリングします (通常は、すべての機能を単位分散にスケーリングするのが最善です)。

  • カーネルを使用していて、特別な事前知識をこのようにエンコードしたい場合は、カスタムの事前計算済みカーネルを使用してください。

テキスト分類の場合、データは非常に暗く、カーネルは通常、予測精度をほとんどまたはまったく追加しないためにリソースを浪費しているだけなので、最後の 2 つの点はおそらく特定の問題には関係ありません。

于 2012-06-18T09:32:06.940 に答える