問題タブ [countvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - FeatureUnion で CountVectorizor を使用して異種機能を使用する
テキスト分類の問題があり、2 つの機能を追加したいと考えています。私が持っているデータは、映画のレビューです (imbd データセット)。2 つの特徴を入力変数として使用して、レビューを肯定的または否定的な感情に分類したいと考えています。2 つの機能は、レビューの長さ (つまり、使用される単語) と、レビューの Bag-of-words 表現です。
FeatureUnion
もう 1 つは、sklearnのオブジェクトを使用してこれを完成させたいということです。hstack
そこで、 2 つのスパース行列を連結するために使用することで、それなしでそれを行う方法を考え出しました。FeatureUnion
しかし、学習目的としては、私は自分の道を歩むことができないので、それをどのように行うのか興味があります.
今まで使用したリソース:
- Michelle Fullwood - scikit-learn でパイプラインと FeatureUnions を使用する
- Zac Stewart - scikit-learn パイプラインと FeatureUnions の使用
- Julie Michelman - パンダ、パイプライン、およびカスタム トランスフォーマー
今まで私は次のコードを持っています:
カスタム トランスフォーマー:
および別のカスタム Transformer:
X_train、y_train、X_test、および y_test データセットは pandas DataFrame に変換されるため、パイプラインの入力はデータフレームになることに注意してください。
CountVectorizer
これはスパース行列を出力するため、私が間違っていると思うのはです。のタイプで独自のカスタム トランスフォーマーを作成する必要がCountVectorizer
あるので、代わりにデータフレームを返しますか? もしそうなら、これは大規模なコーパスで作業するのは非常に計算コストが高くないですか? クラスで作業CountVectorizer
する全体像を把握できないという考えがあるので、本当に助けを借りることができます。FeatureUnion