27

いくつかのアルゴリズムを使用して、ログ データをマイニングしたいと考えています。

パターン マイニング フレームワークを見つけました: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

いくつかのアルゴリズムを試しましたが、BIDE+ アルゴリズムが最適です。

BIDE+ アルゴリズムは、シーケンス データベースから頻繁に閉じられたシーケンシャル パターンをマイニングするためのものです。

誰かが「閉じた」連続パターンと開いたパターンについての定義を説明できますか?

4

3 に答える 3

52

SPMF ソフトウェアをご利用いただきありがとうございます。

順次パターンのサポートは、順次パターンを含むシーケンスの数です。

頻繁なシーケンシャル パターンは、シーケンス データベースの少なくとも「minsup」シーケンスに現れるパターンです。ここで、minsupはユーザーが設定したパラメーターです。

頻繁に閉じたシーケンシャル パターンは、まったく同じサポートを持つ別のシーケンシャル パターンに含まれていないような頻出シーケンシャル パターンです。

PrefixSpanなどのアルゴリズムは、頻繁に連続するパターンを見つけます。BIDE +などのアルゴリズムは、頻繁に閉じたシーケンシャル パターンを見つけます。通常、BIDE+ は PrefixSpan よりもはるかに高速です。これは、プルーニング手法を使用してすべての連続パターンの生成を回避するためです。さらに、閉じたパターンのセットは通常、連続したパターンのセットよりもはるかに小さいため、BIDE+ はメモリ効率も高くなります。

知っておくべきもう 1 つの重要なことは、クローズド シーケンシャル パターンは、すべてのシーケンシャル パターンのコンパクトで損失のない表現であるということです。これは、閉じたシーケンシャル パターンのセットが通常ははるかに小さいことを意味しますが、ロスレスであることを意味します。つまり、シーケンシャル パターンの完全なセットを復元できる (情報が失われることはありません)。これは非常に便利です。

簡単な例を挙げることができます。

4 つのシーケンスを考えてみましょう。

a  b  c  d  e
a  b  d
b  e  a  
b  c  d  e

minsup = 2 としましょう。

b cは、2 つのシーケンスで表示されるため、頻繁に連続するパターンです (2 のサポートがあります)。は、同じサポートを持つb cより大きな連続パターンに含まれているため、閉じた連続パターンではありません。b c d

b c db c d eこれは、同じサポートを持つ より大きな連続パターンに含まれているため、閉じた連続パターンでもありません。b c d eは、同じサポートを持つ他の連続パターンに含まれていないため、閉じた連続パターンです。

ちなみに、シーケンシャルパターンマイニングに関する私の調査もチェックできます。このトピックとさまざまなアルゴリズムについての良い紹介です。

于 2013-04-26T14:54:22.040 に答える
2

頻度の高いアイテムセットと頻度の高いアイテムセットに関するこの章を確認してください マイニングとアソシエーションルール

于 2013-04-25T18:42:34.607 に答える
1

「閉鎖された頻繁なアイテムセット」のGoogle。データマイニングの本と同様に、これを説明するページがたくさんあります (APRIORI アルゴリズムを探してください)。

「クローズ」は、同じサポートを持つより大きなアイテムセットがないことを示します。より大きなアイテムセットが存在する可能性がありますが、それらのサポートは低くなければなりません。

ほとんどのユースケースでは、最大または閉じた項目セットのみを調べるだけで十分です。

于 2013-04-23T07:59:42.537 に答える