1

私は、画像ファイルの形式が正しくない(ファジングされている、つまり画像データが変更されている)プロジェクトに取り組んでいます。これらのファイルをさまざまなプラットフォームでレンダリングすると、プラットフォームからの警告/クラッシュ/パスレポートが表示されます。

教師なし機械学習を使用してシールドを構築しようとしています。これは、これらの画像を悪意のあるものかどうかを識別/分類するのに役立ちます。私はこれらのファイルのバイナリデータを持っていますが、視覚的にこれらの画像は何でもよいので、これからどのfeatureSet/patternsを識別できるかわかりません。(バイナリデータから機能セットを見つけることができる必要があります)

このバイナリデータからの自動特徴抽出に使用できるツール/方法についてアドバイスが必要です。KohenenのSOMなどの教師なし学習アルゴリズムで使用できる機能セット。

私はこれに不慣れです、どんな助けでも素晴らしいでしょう!

4

2 に答える 2

2

これは実現可能ではないと思います。

問題は、これらが古いエクスプロイトであり、それらに関するトレーニングでは将来のエクスプロイトについて多くを教えてくれないことです。これは非常に不均衡な問題であるため、他のエクスプロイトと同じものを使用するエクスプロイトはありません。したがって、同じタイプの複数のファイルを生成した場合でも、最終的には、たとえば各エクスプロイトに関連する単一のトレーニングケースが作成される可能性があります。

それでも、あなたがする必要があるのは、ファイルのメタデータから特徴を抽出することです。これは、実際のイメージではなく、エクスプロイトが存在する場所です。そのため、ファイルの解析はすでに問題が発生している領域であり、検出ツールはまさにそのようなエクスプロイトに対して脆弱になる可能性があります。

データが圧縮されている可能性があるため、単純なバイナリ機能も機能しません。

于 2012-09-13T08:04:32.060 に答える
0

ほとんどの(ほぼ確実な)破損は、異なる「チャンク」を持つファイルヘッダーにあるため、実際のピクセルデータをまったく見たくないでしょう(pngの例、動作は異なりますが、他の形式でも同じです) :

http://en.wikipedia.org/wiki/Portable_Network_Graphics#File_header

機能を選択し、ファイルからすべてのヘッダー情報を読み取るプログラムを作成し、情報が欠落している場合は、この情報を機能として使用するのは簡単です。それでも、不要な生の画像データよりもはるかに小さくなります。

ああ、そして常にkmeansか何かと一緒にpcaのようなより単純なアルゴリズムから始めてください、そしてそれらが失敗したならあなたは大きな銃を引き出すべきです。

于 2012-09-13T07:05:42.073 に答える