C1、C2、C3、C4 という 4 つの制約を持つ履歴データがあります。すべての制約は文字列値を取ります。サッカーの試合を例にとると、4 つの制約は次のようになります。
C1 :place where game is taking place (USA,IND,AUS etc)
C2 : Month (jan , feb ..)
C3 :start time (9am , 10 am , 9pm , 10pm..)
C4 : Playing against team (Chelsa , juventus ..)
すべての制約とゲームの結果に異なる値を持つ履歴データがあるため、次のようなデータの膨大なコレクションがあります。
C1 C2 C3 C4 result
USA Jan 9AM Chelsa Won
USA Jan 7PM juventus Won
IND Feb 8PM Barcelona Lost
UK May 6AM juventus Lost
AU Nov 5AM Barcelona Won
HK Oct 2PM Chelsa Won
このデータに基づいて、私のチームが 1 月の午後 7 時にアメリカで Chelsa と試合をした場合に勝つ確率を計算したいと思います。
大量のデータがありますが、要件に完全に一致するレコードが見つかるかどうかわかりません。その場合、C1、C2、C3、C4 がどのレコードとも一致しない場合、どのように確率を計算しますか?しかし、C1、C2、C3 が C2、C3、C4 一致するレコードと一致するレコードがいくつかあります。の上...?
誰かがどのように進めるかについて私に何か指示を与えることができますか.