私はサッカー(サッカー)の大ファンで、機械学習にも興味があります。MLコースのプロジェクトとして、ホームチームとアウェイチームの名前を指定して、ホームチームの勝利の可能性を予測するモデルを構築しようとしています(データセットをクエリし、それに応じて以前の一致に基づいてデータポイントを作成します)それらの2つのチームの間)
私はすべてのチームのいくつかのシーズンのデータを持っていますが、アドバイスが必要な次の問題があります。EPL(英国プレミアリーグ)には、自宅と離れた場所で互いにプレーする20チームがあります(シーズンで合計380ゲーム)。したがって、シーズンごとに、2つのチームは2回だけ対戦します。
私は過去10年以上のデータを持っているので、2つのチームのデータポイントは2 * 10=20になります。ただし、チームは時間の経過とともにかなり変化し(ManCity、Liverpool)、システムにエラーが増えるだけだと思うので、3年を過ぎたくありません。
したがって、これにより、チームのペアごとに約6〜8個のデータポイントが得られます。ただし、両方のチームのフルタイムゴール、ハーフタイムゴール、パス、ショット、イエロー、レッドなど、データポイントごとにいくつかの機能(最大20以上)があるため、最近のフォーム、最近のホームなどの機能を含めることができますフォーム、最近のアウェイフォームなど。
ただし、トレーニングするデータポイントが6〜8個しかないという考えは、私には正しくないようです。この問題にどのように対処できるかについての考えはありますか?(これがそもそも問題である場合、つまり)
ありがとう!
編集:FWIW、これが私のプロジェクトの完了時に編集した私のレポートへのリンクです。https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf 。それは「素晴らしい」ものではありませんが、私が引き出すことができた観察のいくつかはかなりクールだったと思います(バイエルンが常にリーグに勝ったため、ブンデスリーガで私の予測が非常にうまくいったように)。