0

最近、特に機械学習アルゴリズムを使用したインターネット トラフィックの分類に関するいくつかの論文を読んでいます。

私はそれについて勉強する予定であり、今学期の機械学習クラスでインターネット トラフィック分類に関するプロジェクトのアイデアを提案したいと考えています。

私の最初のステップは、3 ~ 4 個のクライアントで構成されるローカル ネットワークでデータを収集することです。Wireshark ツールを使用してパケットを盗聴しています。

次のステップは、wireshark パケットから TCP フローを抽出することです。このステップでは、Linux で tcpflow を使用しようとしています。tcpflow は、フローごとに異なるファイルを作成します。ここでは、ファイルの内容はほとんどバイナリであり、これらのファイルから識別子を抽出する方法がわかりません。

誰かが私にアイデアを与えたり、tcpflow ファイルを解釈する方法について彼/彼女の経験を共有したりできますか? あなたの推薦を聞いて、私はさらに嬉しく思います。

前もって感謝します。

4

1 に答える 1

2

TCPトラフィックから抽出できる機能のアイデアを次に示します。

  • ポート/プロトコル(ほとんどのプロトコルは通常、サーバー上の同じポートを使用します)
  • パケットの頻度とサイズ(短いコマンドパケットまたは長いデータストリーム)
  • TCP接続フェーズ
  • ストリームエラー/再送信
  • フロー制御メッセージとレート制限

特徴抽出を改善するには、TCPストリームだけでなく、いくつかのプロトコル(HTTP、DNSなど)自体の詳細を確認する必要があります。Wiresharkはすでにこれを行っていると思うので、ライブラリ機能を再利用してみませんか?

また、侵入検知システム(IDS)の設計も検討することをお勧めします。これは、トラフィックに対してほぼ同じことを行い、それを良性または悪意のあるものとして分類しようとしているためです。

于 2013-03-03T00:05:31.447 に答える