2

収集すべきデータのサンプルとインスタンスの理想的な数を決定しようとしています。基本的に、ネットワーク トラフィックのデータセットを作成する必要があります。

各サンプルのサンプル数とインスタンス数がトレーニング データにどのように影響するかはわかりません。サンプル数が多いのがいいですか?では、できるだけ多くのインスタンスを収集しようとする必要がありますか?

私の考えは、異なる日に 2 つの異なるサンプルを収集することでした。次に、各サンプルの各プログラム/プロトコルについて、約 30 のインスタンスを収集します。

そして、SVM アルゴリズムを使用します。

ご協力いただきありがとうございます。また、定義 (サンプルとインスタンス) を混同しているかどうかもわかりません。

4

1 に答える 1

1

インスタンスとサンプルの区別については完全にはわかりませんが (通常は同じ意味です)、一般的に (データ収集プロセスが健全である限り) データが多いほど良いです。ほとんどの学習者のパフォーマンスを確率的に保証するために必要なデータ インスタンスの数に関する結果がいくつかありますが、これらは通常は実用的ではなく、必要なデータ量を超えてしまいます。したがって、全体として、収集コストと学習アルゴリズムを実行するための計算コストの両方の観点から、可能な限り多くのデータを収集します。

于 2012-07-14T19:39:05.877 に答える