3

私が持っているいくつかのデータに対して頻繁なシーケンスマイニングを実行することを目的として、 arulesSequences を使い始めています。店舗 A のデータは次のようになります。

CUSTOMER_ID seq_num サイズ buy_items

1 17399 1 2 {100,100}

2 17399 2 1 {800}

3 17399 3 2 {900,900}

4 17399 4 1 {405}

5 17399 5 4 {200,505,200,505}

これは、この顧客 #17399 がこのストア A で複数回買い物をしたことを意味します。この人は初めての買い物で、商品コード 100 と 100 の商品を 2 つ購入しました。この顧客は 2 回目の買い物旅行で、アイテム 800 だけを購入しました。

今、私はこの顧客に cSPADE を使用したいと考えています。注文は「バスケット」内では重要ではありませんが、買い物旅行全体では重要です。したがって、最終的に顧客 17399 の記録は次のようになります。

CUSTOMER_ID 購入したアイテム

17399 {(100,100),800,(900,900),405,(200,505,200,505)}

{} には完全なシーケンスが含まれ、() は各ショッピング旅行を表します。

一般的にはこれが可能性であることは理解していますが、これをサポートする arulesSequences について明示的に説明している例 (数時間の検索) やメモは見たことがありません。そこに何か考えはありますか?助けていただければ幸いです。

御時間ありがとうございます。

4

1 に答える 1

3

数時間の研究の後、他の人に役立つ場合に備えて、見つけた答えを追加します.

答えはイエスです。パッケージは、バスケット全体で繰り返されるアイテムをサポートしています。実際、この Web サイトの例: https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Sequence_Mining/SPADEはこのケースを示しています。この例では、(同じトランザクションに属する) 2 つのシーケンス番号が同じではありませんが、重複する要素があります。それらが同じであったとしても (サンプルの入力 .txt で遊んだ場合)、read_basket と cSPADE を使用してもエラーは発生しません。これは私が適用しようとしていたものです。

ウェブ上に出回っている多くの例はアプリオリのためのもので、バスケット内でのアイテムの繰り返しは許可されていません。これは多くの混乱を引き起こします。上に貼り付けた例は、代わりに cSPADE を使用することを示す良い例です。これが人々に役立つことを願っています。

于 2016-01-11T23:19:34.650 に答える