python - 機械学習で可能性を文書化

Question

私は何を達成しようとしていますか？

データを (JSON 形式で) 分類しました。既存の分類済みデータを使用して新しい受信データが生成される可能性を示すモデルを生成したいと考えています。(すべての既存のクラスの可能性)。
たとえば、既存のデータを 2 つのクラスに分類しました。tier1とtier2。新しいデータを受け取ったときに知りたいのは、既存の%データと一致する新しいデータの数です。一致しない場合は取得したいだけですtier1tier20 %

私が持っているサンプルデータ

[
    {
        "type": "threat",
        "severity": "2",
        "category": "tier1"
    },
    {
        "type": "threat",
        "severity": "3",
        "category": "tier1"
    },
    {
        "type": "malware",
        "severity": "7",
        "category": "tier2"
    },
    {
        "type": "threat",
        "severity": "7",
        "category": "tier2"
    },
    {
        "type": "malware",
        "severity": "5",
        "category": "tier1"
    },
    {
        "type": "threat",
        "severity": "14",
        "category": "tier2"
    },
    {
        "type": "malware",
        "severity": "13",
        "category": "tier2"
    },
    {
        "type": "threat",
        "severity": "14",
        "category": "tier2"
    },
    {
        "type": "threat",
        "severity": "1",
        "category": "tier1"
    },
]

受信データと私の期待

シナリオ 1: 受信データ:

{
    "type": "foo",
    "severity": "cdsb",
}

期待：tier1: 0 %, tier2: 0 %

シナリオ 2: 受信データ:

{
    "type": "threat",
    "severity": "60",
}

期待：tier1: X %, tier2: Y%

いくつかの質問: 1. これを解決する最善の方法は何ですか? 2. ここに示したデータは単なる2機能ですが、実際の入力データには、異なるタイプのフィールドがさらに多くあります。特徴を抽出する最良の方法は何ですか!

python - 機械学習で可能性を文書化

0 に答える 0

Related

Reference