着信ネットワーク パケットの到着間隔を予測しようとしています。ネットワーク パケットの到着間隔を測定し、このデータをバイナリ機能の形式で表します。損益分岐点、それ以外は 1。データは、2 つの可能なクラスC={0,1}にマップする必要があります。ここで、C=0は短い到着間隔を表し、1 は長い到着間隔を表します。分類子をオンライン機能に実装したいので、機能のベクトルを観察するとすぐにxi=0,1,1,0..., MAP クラスを計算します。条件付き確率と事前確率の事前推定がないため、次のように初期化します。
p(x=0|c=0)=p(x=1|c=0)=p(x=0|c=1)=p(x=1|c=1)=0.5
p(c=0)=p(c=1)=0.5
各特徴ベクトル(x1=m1,x2=m2,...,xn=mn)について、クラスCを出力するときに、条件付き確率と事前確率を次のように更新します。
p(xi=mi|y=c)=a+(1-a)*p(p(xi=mi|c)
p(y=c)=b+(1-b)*p(y=c)
問題は、常に偏った予測を得ていることです。longの到着間隔の数は shortよりも比較的少ないため、shortの事後は常にlongよりも高いままです。これを改善する方法はありますか?または私は何か間違ったことをしていますか?どんな助けでも大歓迎です。