SPMF ソフトウェアをご利用いただきありがとうございます。
順次パターンのサポートは、順次パターンを含むシーケンスの数です。
頻繁なシーケンシャル パターンは、シーケンス データベースの少なくとも「minsup」シーケンスに現れるパターンです。ここで、minsupはユーザーが設定したパラメーターです。
頻繁に閉じたシーケンシャル パターンは、まったく同じサポートを持つ別のシーケンシャル パターンに含まれていないような頻出シーケンシャル パターンです。
PrefixSpanなどのアルゴリズムは、頻繁に連続するパターンを見つけます。BIDE +などのアルゴリズムは、頻繁に閉じたシーケンシャル パターンを見つけます。通常、BIDE+ は PrefixSpan よりもはるかに高速です。これは、プルーニング手法を使用してすべての連続パターンの生成を回避するためです。さらに、閉じたパターンのセットは通常、連続したパターンのセットよりもはるかに小さいため、BIDE+ はメモリ効率も高くなります。
知っておくべきもう 1 つの重要なことは、クローズド シーケンシャル パターンは、すべてのシーケンシャル パターンのコンパクトで損失のない表現であるということです。これは、閉じたシーケンシャル パターンのセットが通常ははるかに小さいことを意味しますが、ロスレスであることを意味します。つまり、シーケンシャル パターンの完全なセットを復元できる (情報が失われることはありません)。これは非常に便利です。
簡単な例を挙げることができます。
4 つのシーケンスを考えてみましょう。
a b c d e
a b d
b e a
b c d e
minsup = 2 としましょう。
b c
は、2 つのシーケンスで表示されるため、頻繁に連続するパターンです (2 のサポートがあります)。は、同じサポートを持つb c
より大きな連続パターンに含まれているため、閉じた連続パターンではありません。b c d
b c d
b c d e
これは、同じサポートを持つ より大きな連続パターンに含まれているため、閉じた連続パターンでもありません。b c d e
は、同じサポートを持つ他の連続パターンに含まれていないため、閉じた連続パターンです。
ちなみに、シーケンシャルパターンマイニングに関する私の調査もチェックできます。このトピックとさまざまなアルゴリズムについての良い紹介です。