まず、データマイニング(データまたはナレッジディスカバリーと呼ばれることもあります)は、さまざまな観点からデータを分析し、それを有用な情報(収益の増加、コストの削減、またはその両方に使用できる情報)に要約するプロセスであることを理解する必要があります。データマイニングソフトウェアは、データを分析するための多くの分析ツールの1つです。これにより、ユーザーはさまざまな次元や角度からデータを分析し、分類して、特定された関係を要約することができます。技術的には、データマイニングは、大規模なリレーショナルデータベースの数十のフィールド間の相関関係またはパターンを見つけるプロセスです。
現在、企業データベースに保存されている生データの量は爆発的に増加しています。何兆ものPOSトランザクションやクレジットカードの購入から、銀河のピクセルごとの画像まで、データベースは現在、ギガバイトとテラバイトで測定されています。(1テラバイト= 1兆バイト。1テラバイトは約200万冊の本に相当します!)たとえば、Wal-Martは、集中型データベースを実行する483プロセッサを備えたA&T超並列システムに毎日2,000万のPOSトランザクションをアップロードします。 。ただし、生データ自体は多くの情報を提供しません。今日の熾烈な競争の激しいビジネス環境では、企業はこれらのテラバイトの生データを顧客や市場への重要な洞察に迅速に変換して、マーケティング、投資、および管理戦略を導く必要があります。
ここで、相関ルールマイニングがデータマイニングの重要なモデルであることを理解する必要があります。そのマイニングアルゴリズムは、ユーザー指定の最小サポート(minsup)および最小信頼度(minconf)の制約を満たすデータ内のすべてのアイテムの関連付け(またはルール)を検出します。Minsupは、ルールがカバーしなければならないデータケースの最小数を制御します。Minconfは、ルールの予測強度を制御します。データベース全体で1つのminsupのみが使用されるため、モデルは、データ内のすべてのアイテムが同じ性質であるか、データ内で同様の頻度を持っていると暗黙的に想定します。ただし、これは実際のアプリケーションではめったに当てはまりません。多くのアプリケーションでは、一部の項目はデータに非常に頻繁に表示されますが、他の項目はめったに表示されません。minsupの設定が高すぎると、レアアイテムを含むルールが見つかりません。頻繁なアイテムとまれなアイテムの両方を含むルールを見つけるには、minsupを非常に低く設定する必要があります。これらの頻繁なアイテムはすべての可能な方法で互いに関連付けられるため、これは組み合わせ爆発を引き起こす可能性があります。このジレンマはレアアイテム問題と呼ばれています。この論文はこの問題を解決するための新しい技術を提案する。この手法により、ユーザーは、データベース内のアイテムの性質とさまざまな頻度を反映するために、複数の最小サポートを指定できます。ルールマイニングでは、ルールに含まれるアイテムに応じて、さまざまなルールがさまざまな最小サポートを満たす必要がある場合があります。この論文はこの問題を解決するための新しい技術を提案する。この手法により、ユーザーは、データベース内のアイテムの性質とさまざまな頻度を反映するために、複数の最小サポートを指定できます。ルールマイニングでは、ルールに含まれるアイテムに応じて、さまざまなルールがさまざまな最小サポートを満たす必要がある場合があります。この論文はこの問題を解決するための新しい技術を提案する。この手法により、ユーザーは、データベース内のアイテムの性質とさまざまな頻度を反映するために、複数の最小サポートを指定できます。ルールマイニングでは、ルールに含まれるアイテムに応じて、さまざまなルールがさまざまな最小サポートを満たす必要がある場合があります。
一連のトランザクションT(データベース)が与えられた場合、アソシエーションルールのマイニングの問題は、ユーザー指定の最小サポート(minsupと呼ばれる)および最小信頼度(minconfと呼ばれる)よりも大きいサポートと信頼性を持つすべてのアソシエーションルールを検出することです。
データマイニングの基本を理解したら、この質問に対する答えが明らかになることを願っています。