このデータセットには注意してください。
http://www.kdnuggets.com/news/2007/n18/4i.html
一部抜粋:
人工データは、クローズド ネットワーク、いくつかの独自のネットワーク トラフィック ジェネレーター、手動注入攻撃を使用して生成されました。
提起された問題の中で最も重要と思われるのは、DARPA データセットが実際のネットワーク トラフィックのように見えることを示すための検証が行われなかったということです。
2003 年、Mahoney と Chan は簡単な侵入検知システムを構築し、それを DARPA の tcpdump データに対して実行しました。彼らは、データの生成方法が原因で、すべての悪意のあるパケットの TTL が 126 または 253 であるのに対し、ほとんどすべての無害なパケットの TTL が 127 または 254 であることを含め、多数の不規則性を発見しました。
DARPA データセット (ひいては KDD カップ '99 データセット) は根本的に壊れており、それらを使用して実行された実験から結論を引き出すことはできませんでした。
(1)すべての研究者が KDD Cup '99 データセットの使用を中止することを強くお勧めします
使用される特徴抽出について。IIRC の機能の大部分は、単に解析されたIP/TCP/UDP ヘッダーの属性でした。ポート番号、IP の最後のオクテット、および一部のパケット フラグなど。
そのため、これらの調査結果はもはや現実的な攻撃を反映していません。今日の TCP/IP スタックは、データ セットが作成された当時よりもはるかに堅牢であり、「死の ping」によって Windows ホストが即座にロックされていました。TCP/IP スタックのすべての開発者は、このような不正なパケットのリスクを認識し、そのようなものに対してスタックのストレス テストを行う必要があります。
これで、これらの機能はほとんど無意味になりました。誤って設定された SYN フラグなどは、ネットワーク攻撃で使用されなくなりました。これらははるかに洗練されています。TCP/IP スタックを攻撃するのではなく、次のレイヤーで実行されているサービスを攻撃する可能性が高くなります。そのため、90 年代初頭に機能した攻撃を使用した 1999 年の欠陥のあるシミュレーションで、どの低レベル パケット フラグが使用されたかを調べる必要はありません...