収集すべきデータのサンプルとインスタンスの理想的な数を決定しようとしています。基本的に、ネットワーク トラフィックのデータセットを作成する必要があります。
各サンプルのサンプル数とインスタンス数がトレーニング データにどのように影響するかはわかりません。サンプル数が多いのがいいですか?では、できるだけ多くのインスタンスを収集しようとする必要がありますか?
私の考えは、異なる日に 2 つの異なるサンプルを収集することでした。次に、各サンプルの各プログラム/プロトコルについて、約 30 のインスタンスを収集します。
そして、SVM アルゴリズムを使用します。
ご協力いただきありがとうございます。また、定義 (サンプルとインスタンス) を混同しているかどうかもわかりません。