4

私は、 scikit-learn を使用して教師あり学習のマルチクラステキスト分類を実行しているかなり限られたデータ セットを持っています。情報の不足を少し緩和するために、次のことを行いたいと思いました。

  1. 分類したいコンテンツからngramを抽出し、コンテンツのユニグラムとマージして分類を行う

  2. 投票ベースのアンサンブル分類器を実装 (または既存の実装を使用) して、分類の精度を向上させます。たとえば、多項ベイズと KNN はどちらも、さまざまなクラスで良い結果をもたらすようです。データセット。

最初のステップは些細なことですが、scikit-learn を使用してアンサンブル分類を行う方法についてはあまりわかりません。scikit-learn には、このようなアンサンブル クラスに関するいくつかのエントリがあることに注意しましたが、探しているものとはまったく異なります。

scikit-learn を使用してこれを行う具体的な例を知っている人はいますか?

4

1 に答える 1

2

私もこの質問には苦労しました。多くの実験の後、sci-kit でアンサンブル分類を行う最良の方法は、トレーニングされた各モデルの clf.predict_proba(X) 値を平均化することであることがわかりました。平均は、個々のモデルよりも長期間 (50 回以上実行) 優れたパフォーマンスを示しました

トレーニング済みのモデルの一部が他のモデルよりも強力であることを保証できる場合は、加重平均または多腕バンディット アンサンブル アプローチの使用を検討することもできます。

http://en.wikipedia.org/wiki/Multi-armed_bandit

于 2015-02-15T22:26:49.167 に答える