私は、いくつかのドキュメントを 2 つのクラスに分類しようとしています。このクラスでは、TfidfVectorizer を特徴抽出手法として使用しています。
入力データは、浮動データ、ラベル、およびドキュメント本文のテキスト BLOB の約 12 個のフィールドを含むデータ行で構成されます。本体を使用するために、TfidfVectorizer を適用し、スパース行列を取得しました ( toarray() を介して配列に変換することで調べることができます)。通常、この行列は非常に大きく、数千から数千の次元があります。これを 1000 x 15000 のサイズの F としましょう。
Scikit で分類子を使用するには、(行数 * 特徴数) である入力行列 X を与えます。本体を使用しない場合は、サイズ 1000 x 15 の X を持っている可能性があります。
ここに問題があります。この F を X に水平にスタックすると、X は 1000 x 15015 になり、いくつかの問題が発生します。2) メモリ不足。
Scikit は、TfidfVectorizer 入力のみを使用する例を提供していますが、メタデータと一緒に使用する方法については明らかにしていません。
私の質問は、TfidfVectorizer の出力をメタデータと一緒に使用して、トレーニング用の分類器に適合させるにはどうすればよいですか?
ありがとうございました。