(アプリオリアルゴリズムを使用して)マーケットバスケット分析用のアプリを開発しようとしていますが、90,000を超えるトランザクションレコードを持つデータセットを見つけました。
問題は、このデータセットにアイテムの名前がなく、アイテムのバーコードのみが含まれていることです。
私はプロジェクトを開始し、アプリオリアルゴリズムの研究を行っていますが、このケースについて誰かが私を助けてくれますか?次のデータセットを使用してこのアルゴリズムを実装する最良の方法は何ですか?
(アプリオリアルゴリズムを使用して)マーケットバスケット分析用のアプリを開発しようとしていますが、90,000を超えるトランザクションレコードを持つデータセットを見つけました。
問題は、このデータセットにアイテムの名前がなく、アイテムのバーコードのみが含まれていることです。
私はプロジェクトを開始し、アプリオリアルゴリズムの研究を行っていますが、このケースについて誰かが私を助けてくれますか?次のデータセットを使用してこのアルゴリズムを実装する最良の方法は何ですか?
アルゴリズムは、オブジェクトに使用される識別子とは関係なく定義されます。また、「次のデータセット」を投稿していません:P問題が、アルゴリズムがアイテムに0、1、2、...の番号を付けることを期待している場合は、データセットをスキャンして、個々のバーコードを番号。
興味がある場合は、頻繁なアイテムセットを非常に効率的に表現する方法に関するいくつかの論文があります:http://www.google.de/url?sa = t&source = web&cd = 1&ved = 0CB8QFjAA&url = http%3A%2F%2Fciteseerx。 ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.163.4827%26rep%3Drep1%26type%3Dpdf&ei = QdVuTsn7Cc6WmQWD7sWVCg&usg = AFQjCNGDG8etNN2B4GQ52pSNIfQaTH7aj
これらの種類のデータセットは重要な情報と見なされ、チェーンストアはこれらの情報を提供しませんが、SQLServerを使用してサンプルデータセットを自分で生成できます。
アルゴリズムはアイテムの名前を必要としません。