次のような数千のデータ エントリがあります。
08 00 00 00 c3 85 20 65 6e 61 62 6c 65 64 2e 0d 0a 45 78 70
5c 72 88 74 80 83 82 79 68 8d 7b 73 90 7c 60 84 80 74 00 00
5d 77 84 76 7d 85 7f 7d 6c 94 7e 73 82 74 61 7f 7b 76 00 00
63 70 84 8c 95 87 80 72 65 73 70 67 85 8a 64 93 89 74 00 00
65 7c 73 6c 6c 9a a2 86 7e 4f 7e 71 7c 79 5c 7f 72 7b 00 00
...
各エントリには 20 個の数字があり、各数字は 0 から 255 までの任意の値 (16 進数で表示) にすることができます。クラスターを固定するために使用できるリファレンスがあります。参照には、データと同じテンプレートがあります。
マンハッタン距離方程式を使用して、参照配列に関する数値をそれぞれに与えることができることは既に決定しています。しかし、データをクラスター化する方法を探しています。私がデータについて知っていることに基づいて、約 50 ~ 60 のクラスターがあるはずです。一部のデータはしきい値を超えており、その結果、どのクラスターにも属していないことが予想されます。
データが設定されている方法で、データが入ってくるとすぐに処理できます (約 1 回 20 秒)。使用する便利なライブラリが見つからず、全体を Python で作成する必要があります (標準ライブラリのみを使用することが望ましい)。
自分でアルゴリズムを開発する必要がないことを望んでいました。私は MinHash が必要かもしれないと信じていますが、他の可能性も受け入れています。