1

映画の興行収入を予測するために、scikit-learn でベイズ モデルを作成したいと考えています。

私はscikit Learnから始めて、CSVやその他のテーブルデータをロードする方法の例をたくさん見つけましたが、値のコレクションで属性をロードする方法の例は見つかりませんでした.

Movie 1: Actors: [Actor 1, Actor 2, Actor 3...], etc.

誰でも私にヒントを与えることができますか?

4

1 に答える 1

4

DictVectorizerまだ Numpy 配列としてエンコードされていないカテゴリデータを処理するための推奨される方法です。サンプルごとに、次のような一連の辞書を作成できます

[{'Tom Hanks': True, 'Halle Berry': True},
 {'Tom Hanks': True, 'Kevin Bacon': True}]

キーは文字列でなければなりません。値は、文字列 (one-of-k コーディングを使用して展開されます)、ブール値、または数値のいずれかです。DictVectorizer次に、これらの辞書を学習アルゴリズムに供給できるマトリックスに変換します。マトリックスには、入力セット全体で俳優 (または他の映画の特徴) ごとに 1 つの列があります。dict/sample で発生しない機能には、暗黙の値 0 があります。

于 2013-03-29T15:19:12.637 に答える