データストリームに半教師付き外れ値検出アルゴリズムを書き込もうとしています。システムの正常な動作と異常な動作を持つトレーニング データ セットがあります。私の仕事は、システムによって生成されたデータ ストリームの外れ値を検出することです。データ ストリームをシミュレートするために、データをバッチに分割しました。
B1(990,-), B2(106,-), B3(101,5), B4(106,-), B5(101,5)
% where Batch_number(#normal, #abnormal)
はB1
トレーニング データ (通常のデータ レコードのみを含む) を表し、 B2,B3,B4,B5
はテスト バッチを表します。異常なデータ レコードがありB3
ます。B5
の通常のデータB3-B5
は から取得されB1
ます。私の質問は、半教師あり学習の場合、それは理にかなっていますか? から通常のデータを取得するのは正しいB1
ですか?