問題タブ [countvectorizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
565 参照

python - FeatureUnion で CountVectorizo​​r を使用して異種機能を使用する

テキスト分類の問題があり、2 つの機能を追加したいと考えています。私が持っているデータは、映画のレビューです (imbd データセット)。2 つの特徴を入力変数として使用して、レビューを肯定的または否定的な感情に分類したいと考えています。2 つの機能は、レビューの長さ (つまり、使用される単語) と、レビューの Bag-of-words 表現です。

FeatureUnionもう 1 つは、sklearnのオブジェクトを使用してこれを完成させたいということです。hstackそこで、 2 つのスパース行列を連結するために使用することで、それなしでそれを行う方法を考え出しました。FeatureUnionしかし、学習目的としては、私は自分の道を歩むことができないので、それをどのように行うのか興味があります.

今まで使用したリソース:

今まで私は次のコードを持っています:

カスタム トランスフォーマー:

および別のカスタム Transformer:

X_train、y_train、X_test、および y_test データセットは pandas DataFrame に変換されるため、パイプラインの入力はデータフレームになることに注意してください。

CountVectorizerこれはスパース行列を出力するため、私が間違っていると思うのはです。のタイプで独自のカスタム トランスフォーマーを作成する必要がCountVectorizerあるので、代わりにデータフレームを返しますか? もしそうなら、これは大規模なコーパスで作業するのは非常に計算コストが高くないですか? クラスで作業CountVectorizerする全体像を把握できないという考えがあるので、本当に助けを借りることができます。FeatureUnion