python - scikit-learn、ベクトル化されたドキュメントのセットに機能を追加する

Question

私はscikit-learnから始めて、一連のドキュメントをクラスタリングと分類を適用できる形式に変換しようとしています。ベクトル化メソッドの詳細と、ファイルをロードしてそれらの語彙にインデックスを付けるためのtfidf変換について見てきました。

ただし、作成者、担当部門、トピックのリストなど、ドキュメントごとに追加のメタデータがあります。

ベクトル化関数によって生成された各ドキュメントベクトルに機能を追加するにはどうすればよいですか？

score 10 · Accepted Answer

DictVectorizer追加のカテゴリデータにを使用してから、 scipy.sparse.hstackを使用してそれらを組み合わせることができます。

1 に答える 1