data-mining - データマイニングと頻繁なデータセット

Question

私は数日で試験のためにいくつかの仕事をしていて、過去の論文をいくつか調べていますが、残念ながら対応する答えはありません。私は質問に答えました、そして私は誰かが私が正しいかどうか私に言うことができるかどうか疑問に思いました。

私の質問は

（c）トランザクションデータセットTを以下に示します。

t1：ミルク、チキン、ビール

t2：チキン、チーズ

t3：チーズ、ブーツ

t4：チーズ、チキン、ビール、

t5：チキン、ビール、洋服、チーズ、ミルク

t6：服、ビール、ミルク

t7：ビール、ミルク、服

最小サポートが0.5（minsup = 0.5）であると想定します。

（i）すべての頻繁なアイテムセットを検索します。

これが私がそれをどのように解決したかです：

アイテム：金額

ミルク：4

チキン：4

ビール：5

チーズ：4

ブーツ：1

服装：3

minsupが0.5であるため、ブーツと服を排除し、残りのギブのコンボを作成します。

{アイテム}：金額

{ミルク、チキン}：2

{ミルク、ビール}：4

{ミルク、チーズ}：1

{チキン、ビール}：3

{鶏肉、チーズ}：3

{ビール、チーズ}：2

ミルクとビールが唯一の頻繁なアイテムセットとして残っているのはどれですか？それはミンサップの上にある唯一のものですか？

score 2 · Accepted Answer

私はあなたがアプリオリアルゴリズムに行くべきであることに同意します。

Aprioriアルゴリズムは、アイテムのペアが頻繁であるためには、個々のアイテムも頻繁である必要があるという考えに基づいています。ハンバーガーとケチャップのペアが頻繁にある場合は、ハンバーガー自体もバスケットに頻繁に表示される必要があります。ケチャップについても同じことが言えます。

したがって、アルゴリズムの場合、頻度が高いかどうかを定義するために「しきい値X」が確立されます。アイテムがX回以上出現する場合、それは頻繁であると見なされます。

アルゴリズムの最初のステップは、各バスケット内の各アイテムを渡し、それらの頻度を計算することです（表示される回数を数えます）。これは、サイズNのハッシュを使用して実行できます。ハッシュの位置yは、Yの頻度を指します。

アイテムyの頻度がXより大きい場合、それは頻繁であると言われます。

アルゴリズムの2番目のステップでは、アイテムを再度反復処理して、バスケット内のペアの頻度を計算します。欠点は、個別に頻繁に使用されるアイテムについてのみ計算することです。したがって、アイテムyとアイテムzが頻繁に発生する場合は、ペアの頻度を計算します。この条件により、計算するペアと使用されるメモリの量が大幅に削減されます。

これが計算されると、しきい値を超える頻度は頻繁なアイテムセットと呼ばれます。

（http://girlincomputerscience.blogspot.com.br/2013/01/frequent-itemset-problem-for-mapreduce.html）

score 1 · Accepted Answer

この問題を解決するには、次の2つの方法があります。

Aprioriアルゴリズムを使用
FPカウントの使用

Aprioriを使用していると仮定すると、得られた答えは正しいです。

アルゴリズムは単純です。
最初に、頻繁な1アイテムセットをカウントし、最小サポート未満のアイテムセットを除外します。
次に、前の反復からの頻繁なアイテムを組み合わせて頻繁な2アイテムセットをカウントし、サポートしきい値を下回るアイテムセットを除外します。
アルゴリズムは、しきい値を超えるアイテムセットがなくなるまで続行できます。
あなたに与えられた問題では、しきい値よりも大きい2つのアイテムの1セットしか得られないため、それ以上移動することはできません。
ウィキペディアのさらなるステップの解決された例がここにあります。

その他の例については、HanとKamberによる「データマイニングの概念と手法」を参照してください。

score 0 · Accepted Answer

まず、データマイニング（データまたはナレッジディスカバリーと呼ばれることもあります）は、さまざまな観点からデータを分析し、それを有用な情報（収益の増加、コストの削減、またはその両方に使用できる情報）に要約するプロセスであることを理解する必要があります。データマイニングソフトウェアは、データを分析するための多くの分析ツールの1つです。これにより、ユーザーはさまざまな次元や角度からデータを分析し、分類して、特定された関係を要約することができます。技術的には、データマイニングは、大規模なリレーショナルデータベースの数十のフィールド間の相関関係またはパターンを見つけるプロセスです。

現在、企業データベースに保存されている生データの量は爆発的に増加しています。何兆ものPOSトランザクションやクレジットカードの購入から、銀河のピクセルごとの画像まで、データベースは現在、ギガバイトとテラバイトで測定されています。（1テラバイト= 1兆バイト。1テラバイトは約200万冊の本に相当します！）たとえば、Wal-Martは、集中型データベースを実行する483プロセッサを備えたA＆T超並列システムに毎日2,000万のPOSトランザクションをアップロードします。。ただし、生データ自体は多くの情報を提供しません。今日の熾烈な競争の激しいビジネス環境では、企業はこれらのテラバイトの生データを顧客や市場への重要な洞察に迅速に変換して、マーケティング、投資、および管理戦略を導く必要があります。

ここで、相関ルールマイニングがデータマイニングの重要なモデルであることを理解する必要があります。そのマイニングアルゴリズムは、ユーザー指定の最小サポート（minsup）および最小信頼度（minconf）の制約を満たすデータ内のすべてのアイテムの関連付け（またはルール）を検出します。Minsupは、ルールがカバーしなければならないデータケースの最小数を制御します。Minconfは、ルールの予測強度を制御します。データベース全体で1つのminsupのみが使用されるため、モデルは、データ内のすべてのアイテムが同じ性質であるか、データ内で同様の頻度を持っていると暗黙的に想定します。ただし、これは実際のアプリケーションではめったに当てはまりません。多くのアプリケーションでは、一部の項目はデータに非常に頻繁に表示されますが、他の項目はめったに表示されません。minsupの設定が高すぎると、レアアイテムを含むルールが見つかりません。頻繁なアイテムとまれなアイテムの両方を含むルールを見つけるには、minsupを非常に低く設定する必要があります。これらの頻繁なアイテムはすべての可能な方法で互いに関連付けられるため、これは組み合わせ爆発を引き起こす可能性があります。このジレンマはレアアイテム問題と呼ばれています。この論文はこの問題を解決するための新しい技術を提案する。この手法により、ユーザーは、データベース内のアイテムの性質とさまざまな頻度を反映するために、複数の最小サポートを指定できます。ルールマイニングでは、ルールに含まれるアイテムに応じて、さまざまなルールがさまざまな最小サポートを満たす必要がある場合があります。この論文はこの問題を解決するための新しい技術を提案する。この手法により、ユーザーは、データベース内のアイテムの性質とさまざまな頻度を反映するために、複数の最小サポートを指定できます。ルールマイニングでは、ルールに含まれるアイテムに応じて、さまざまなルールがさまざまな最小サポートを満たす必要がある場合があります。この論文はこの問題を解決するための新しい技術を提案する。この手法により、ユーザーは、データベース内のアイテムの性質とさまざまな頻度を反映するために、複数の最小サポートを指定できます。ルールマイニングでは、ルールに含まれるアイテムに応じて、さまざまなルールがさまざまな最小サポートを満たす必要がある場合があります。

一連のトランザクションT（データベース）が与えられた場合、アソシエーションルールのマイニングの問題は、ユーザー指定の最小サポート（minsupと呼ばれる）および最小信頼度（minconfと呼ばれる）よりも大きいサポートと信頼性を持つすべてのアソシエーションルールを検出することです。

データマイニングの基本を理解したら、この質問に対する答えが明らかになることを願っています。

data-mining - データマイニングと頻繁なデータセット

3 に答える 3

Related

Reference