私は何を達成しようとしていますか?
- データを (JSON 形式で) 分類しました。既存の分類済みデータを使用して新しい受信データが生成される可能性を示すモデルを生成したいと考えています。(すべての既存のクラスの可能性)。
- たとえば、既存のデータを 2 つのクラスに分類しました。
tier1
とtier2
。新しいデータを受け取ったときに知りたいのは、既存の%
データと一致する新しいデータの数です。一致しない場合は取得したいだけですtier1
tier2
0 %
私が持っているサンプルデータ
[
{
"type": "threat",
"severity": "2",
"category": "tier1"
},
{
"type": "threat",
"severity": "3",
"category": "tier1"
},
{
"type": "malware",
"severity": "7",
"category": "tier2"
},
{
"type": "threat",
"severity": "7",
"category": "tier2"
},
{
"type": "malware",
"severity": "5",
"category": "tier1"
},
{
"type": "threat",
"severity": "14",
"category": "tier2"
},
{
"type": "malware",
"severity": "13",
"category": "tier2"
},
{
"type": "threat",
"severity": "14",
"category": "tier2"
},
{
"type": "threat",
"severity": "1",
"category": "tier1"
},
]
受信データと私の期待
- シナリオ 1: 受信データ:
{
"type": "foo",
"severity": "cdsb",
}
期待:tier1: 0 %, tier2: 0 %
- シナリオ 2: 受信データ:
{
"type": "threat",
"severity": "60",
}
期待:tier1: X %, tier2: Y%
いくつかの質問:
1. これを解決する最善の方法は何ですか? 2. ここに示したデータは単なる2
機能ですが、実際の入力データには、異なるタイプのフィールドがさらに多くあります。特徴を抽出する最良の方法は何ですか!