6

Kaggel のJob Salary Predictionを見ると、数値の特徴 (Category など) とテキストの特徴 (FullDescription など) が見られます。

そのようなデータでトレーニングを行うにはどうすればよいですか? TfidfTransformerを使用してテキストをベクトル化することを考えましたが、多くの学習アルゴリズム ( RandomForestRegressorなど) が処理を拒否する疎行列が作成されます。また、テキストの特徴ベクトルを取得したら、それを他の特徴と組み合わせるにはどうすればよいでしょうか?

そのようなデータを扱う方法についての指針はありますか?

ありがとう!

4

1 に答える 1