私は同じ科目で勉強しています。侵入検知と機械学習。それはかなり広い主題です。データの前処理と機能構築の観点について詳しくお答えします。ニューラル ネットワークの部分はまったく別の話です。
まず第一に、この分野は商業化が進んでいるため、オープンソースのコード例はほとんどありません。多くのことが、閉鎖されたエコシステムで商業的に行われています。
学術的な観点から:ビッグデータセットの問題があります。DK99C (Darpa - KDD99 データ セット) は存在しますが、非常に古いものです。KDD99 データセットは、DARPA tcpdumps から構築されます。彼らは bro IDS 、tcpdump api を使用して機能を構築しました。私の観点からすると、未加工の tcpdump から機能を作成するのは、準備が整った機能で機械学習アルゴリズム (ニューラル ネットワーク) を使用するよりもはるかに困難です。
この記事を読んで、それ (KDD99) がどのように構築されているかについて学んでください。
Article (Lee2000framework) Lee, W. & Stolfo, S. J.
A framework for constructing features and models for intrusion detection systems
ACM Trans. Inf. Syst. Secur., ACM, 2000, 3, 227-261
この記事とそのプレゼンテーションを読んで、この主題が研究するのが難しい問題である理由を理解してください。
Inproceedings (Sommer2010Outside) Sommer, R. & Paxson, V.
Outside the Closed World: On Using Machine Learning for Network Intrusion Detection
Proceedings of the 2010 IEEE Symposium on Security and Privacy, IEEE Computer Society, 2010, 305-316
この記事を読んで、ほとんどの学者がこのテーマでどのように取り組んでいるかを確認してください。本当に少し残念です。
Article (Tavallaee2010Toward) Tavallaee, M.; Stakhanova, N. & Ghorbani, A.
Toward Credible Evaluation of Anomaly-Based Intrusion-Detection Methods
Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 2010, 40, 516 -524
DK99C が有害と見なされる理由については、こちらをお読みください。有害ですが、他に信頼できるデータセットはありません。
Article (Brugger2007KDD) Brugger, S.
KDD Cup’99 dataset (Network Intrusion) considered harmful
KDnuggets newsletter, 2007, 7, 15
IDS データの前処理の分類については、こちらをお読みください
Article (Davis2011Data) Davis, J. J. & Clark, A. J.
Data preprocessing for anomaly based network intrusion detection: A review
Computers & Security, 2011, 30, 353 - 375