私はトレーニング データの例を持っています (トレーニング用に 1000 本の映画があります)。各映画の「予算」を予測する必要があります。
film_1 = {
'title': 'The Hobbit: An Unexpected Journey',
'article_size': 25000,
'producer': ['Peter Jackson', 'Fran Walsh', 'Zane Weiner'],
'release_date': some_date(2013, 11, 28),
'running_time': 169,
'country': ['New Zealand', 'UK', 'USA'],
'budget': dec('200000000')
}
'title'
、'producer'
、などのキー'country'
は機械学習の特徴と見なすことができ'The Hobbit: An Unexpected Journey'
、25000
、 などの値は学習プロセスに使用される値と見なすことができます。ただし、トレーニングでは、入力はほとんど文字列形式ではなく実数として受け入れられます。'title'
, 'producer'
, 'country'
(文字列であるフィールド)などのフィールドをint
(分類やシリアル化などを行う必要がありますか?) に変換したり、これらのデータをネットワークのトレーニング セットとして使用できるようにするために他の操作を行う必要がありますか?