11

私はサッカー(サッカー)の大ファンで、機械学習にも興味があります。MLコースのプロジェクトとして、ホームチームとアウェイチームの名前を指定して、ホームチームの勝利の可能性を予測するモデルを構築しようとしています(データセットをクエリし、それに応じて以前の一致に基づいてデータポイントを作成します)それらの2つのチームの間)

私はすべてのチームのいくつかのシーズンのデータを持っていますが、アドバイスが必要な次の問題があります。EPL(英国プレミアリーグ)には、自宅と離れた場所で互いにプレーする20チームがあります(シーズンで合計380ゲーム)。したがって、シーズンごとに、2つのチームは2回だけ対戦します。

私は過去10年以上のデータを持っているので、2つのチームのデータポイントは2 * 10=20になります。ただし、チームは時間の経過とともにかなり変化し(ManCity、Liverpool)、システムにエラーが増えるだけだと思う​​ので、3年を過ぎたくありません。

したがって、これにより、チームのペアごとに約6〜8個のデータポイントが得られます。ただし、両方のチームのフルタイムゴール、ハーフタイムゴール、パス、ショット、イエロー、レッドなど、データポイントごとにいくつかの機能(最大20以上)があるため、最近のフォーム、最近のホームなどの機能を含めることができますフォーム、最近のアウェイフォームなど。

ただし、トレーニングするデータポイントが6〜8個しかないという考えは、私には正しくないようです。この問題にどのように対処できるかについての考えはありますか?(これがそもそも問題である場合、つまり)

ありがとう!

編集:FWIW、これが私のプロジェクトの完了時に編集した私のレポートへのリンクです。https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf 。それは「素晴らしい」ものではありませんが、私が引き出すことができた観察のいくつかはかなりクールだったと思います(バイエルンが常にリーグに勝ったため、ブンデスリーガで私の予測が非常にうまくいったように)。

4

3 に答える 3

5

これは興味深い問題であり、独自の解決策はないと思います。しかし、私があなたの立場にあったら、私が試すことができる小さなことがいくつかあります。

信頼できるモデルを構築するにはデータが少なすぎるため、クラスあたり約6〜8ポイントについての懸念を共有します。したがって、問題を少し異なる方法でモデル化しようとします。各クラスのデータを増やすために、20のクラスではなく、2つ(ホーム/アウェイ)だけにし、2つの機能を追加します。1つはホームのチーム用で、もう1つはアウェイチーム用です。その設定では、ホームまたはアウェイでプレーしている場合にどのチームが勝つかを予測でき、問題には結果を生成するためのより多くのデータがあります。

別のアイデアは、他のヨーロッパのリーグからデータを取得することです。現在、チームは機能であり、クラスではないため、モデルにあまりノイズを追加することはなく、追加のデータから利益を得ることができます(これらの機能が別のリーグで有効であると想定)

于 2013-03-20T14:26:13.013 に答える
1

これがまだ役立つかどうかはわかりませんが、フルタイム ゴール、ハーフタイム ゴール、パス、ショット、イエロー、レッドなどの機能は、分類したい新しい試合にはありません。

これを分類の問題 (1、X、または 2 の 3 つのカテゴリのいずれかに一致を分類する) として扱い、新しい一致にも適用できる機能を追加します。例:行方不明の選手の数(負傷/レッドカードによる)、各チームがホームチームである試合直前に連続して持っていた勝ち/引き分け/負けの数(すでに述べた)、その試合で得点したゴールここ数試合のホームアンドアウェイなど…

6 ~ 8 試合あることが本当の問題です。このデータセットは非常に小さく、多くのオーバー フィッティングが発生しますが、前述のような機能を使用する場合は、古いデータも使用できると思います。

于 2014-02-26T02:19:30.397 に答える