python - シリアル化、pyBrain での分類、機械学習、予測

Question

私はトレーニングデータの例を持っています (トレーニング用に 1000 本の映画があります)。各映画の「予算」を予測する必要があります。

film_1 = {
    'title': 'The Hobbit: An Unexpected Journey',
    'article_size': 25000,
    'producer': ['Peter Jackson', 'Fran Walsh', 'Zane Weiner'],
    'release_date': some_date(2013, 11, 28),
    'running_time': 169,
    'country': ['New Zealand', 'UK', 'USA'],
    'budget': dec('200000000')
}

'title'、'producer'、などのキー'country'は機械学習の特徴と見なすことができ'The Hobbit: An Unexpected Journey'、25000、などの値は学習プロセスに使用される値と見なすことができます。ただし、トレーニングでは、入力はほとんど文字列形式ではなく実数として受け入れられます。'title', 'producer', 'country'(文字列であるフィールド)などのフィールドをint(分類やシリアル化などを行う必要がありますか?) に変換したり、これらのデータをネットワークのトレーニングセットとして使用できるようにするために他の操作を行う必要がありますか?

score 0 · Accepted Answer

これが必要かどうか疑問に思っていました：

film_list=['title','article_size','producer','release_date','running_time','country','budget']
flist = [(i,j) for i, j in enumerate(film_list)]
label = [ seq[0] for seq in flist ]
name = [ seq[1] for seq in flist ]
print label 
print name

>>[0, 1, 2, 3, 4, 5, 6]
['title', 'article_size', 'producer', 'release_date', 'running_time', 'country', 'budget']

または、辞書を直接使用することもできます。

labels = film_1.keys()
print labels

# But the keys are sorted, labels[0] will give you 'producer' instead of 'title':
>>['producer', 'title', 'country', 'release_date', 'budget', 'article_size', 'running_time']

python - シリアル化、pyBrain での分類、機械学習、予測

1 に答える 1

Related

Reference