私はscikit-learnから始めて、一連のドキュメントをクラスタリングと分類を適用できる形式に変換しようとしています。ベクトル化メソッドの詳細と、ファイルをロードしてそれらの語彙にインデックスを付けるためのtfidf変換について見てきました。
ただし、作成者、担当部門、トピックのリストなど、ドキュメントごとに追加のメタデータがあります。
ベクトル化関数によって生成された各ドキュメントベクトルに機能を追加するにはどうすればよいですか?
私はscikit-learnから始めて、一連のドキュメントをクラスタリングと分類を適用できる形式に変換しようとしています。ベクトル化メソッドの詳細と、ファイルをロードしてそれらの語彙にインデックスを付けるためのtfidf変換について見てきました。
ただし、作成者、担当部門、トピックのリストなど、ドキュメントごとに追加のメタデータがあります。
ベクトル化関数によって生成された各ドキュメントベクトルに機能を追加するにはどうすればよいですか?
DictVectorizer
追加のカテゴリデータにを使用してから、 scipy.sparse.hstackを使用してそれらを組み合わせることができます。