生データ(非ASCII)の繰り返しパターンを発見するためのアルゴリズムを構築しようとしています。
構成可能な最短および最大のパターンサイズ。検索するデータのサイズは数万バイトになります。
たとえば、次のデータがあるとします。
AB CD 01 AB CD 02 EF 03 02 EF 04 02 EF
繰り返しパターンに遭遇する回数を出力します。この場合:
ABCD x2
02EF x3
接尾辞木などのいくつかのアルゴリズムを見てきましたが、一般的には文字列ベースのようです。
これはPythonで記述されますが、実際の実装よりも、関連する概念に関心があります。
助けてくれて本当にありがとうございます。