machine-learning - DARPA pcap ファイルから KDD99 機能を取得するには?

Question

私は最近、DARPA ネットワークトラフィックパケットと、KDD99 で侵入検知の評価に使用されるその派生バージョンを扱ってきました。

申し訳ありませんが、コンピューターネットワークに関するドメインの知識が限られているため、DARPA パケットヘッダーから 9 つの機能しか導き出すことができませんでした。KDD99 で使用されている 41 の機能ではありません。

UNB ISCX Intrusion Detection Evaluation DataSet の作業を続けるつもりです。ただし、pcap ファイルから KDD99 で使用される 41 の機能を抽出し、CSV 形式で保存したいと考えています。これを達成するための迅速で簡単な方法はありますか?

score 9 · Accepted Answer

このデータセットには注意してください。

http://www.kdnuggets.com/news/2007/n18/4i.html

一部抜粋:

人工データは、クローズドネットワーク、いくつかの独自のネットワークトラフィックジェネレーター、手動注入攻撃を使用して生成されました。

提起された問題の中で最も重要と思われるのは、DARPA データセットが実際のネットワークトラフィックのように見えることを示すための検証が行われなかったということです。

2003 年、Mahoney と Chan は簡単な侵入検知システムを構築し、それを DARPA の tcpdump データに対して実行しました。彼らは、データの生成方法が原因で、すべての悪意のあるパケットの TTL が 126 または 253 であるのに対し、ほとんどすべての無害なパケットの TTL が 127 または 254 であることを含め、多数の不規則性を発見しました。

DARPA データセット (ひいては KDD カップ '99 データセット) は根本的に壊れており、それらを使用して実行された実験から結論を引き出すことはできませんでした。

(1)すべての研究者が KDD Cup '99 データセットの使用を中止することを強くお勧めします

使用される特徴抽出について。IIRC の機能の大部分は、単に解析されたIP/TCP/UDP ヘッダーの属性でした。ポート番号、IP の最後のオクテット、および一部のパケットフラグなど。

そのため、これらの調査結果はもはや現実的な攻撃を反映していません。今日の TCP/IP スタックは、データセットが作成された当時よりもはるかに堅牢であり、「死の ping」によって Windows ホストが即座にロックされていました。TCP/IP スタックのすべての開発者は、このような不正なパケットのリスクを認識し、そのようなものに対してスタックのストレステストを行う必要があります。

これで、これらの機能はほとんど無意味になりました。誤って設定された SYN フラグなどは、ネットワーク攻撃で使用されなくなりました。これらははるかに洗練されています。TCP/IP スタックを攻撃するのではなく、次のレイヤーで実行されているサービスを攻撃する可能性が高くなります。そのため、90 年代初頭に機能した攻撃を使用した 1999 年の欠陥のあるシミュレーションで、どの低レベルパケットフラグが使用されたかを調べる必要はありません...

machine-learning - DARPA pcap ファイルから KDD99 機能を取得するには?

1 に答える 1

Related

Reference