R の arulesSequence パッケージの cspade アルゴリズムからサブシーケンスを削除する方法、たとえば、私のデータ (Sample.txt) が以下の場合
列名: sequenceID、EventID、size、Item
1 1 1 A
1 2 1 B
1 3 1 C
1 4 1 D
2 1 1 A
2 2 1 B
2 3 1 C
3 1 1 A
3 2 1 B
3 3 1 C
3 4 1 D
以下の arulesSequence コード行を実行した後
library("arulesSequences")
#### while importing the Sample.txt remove the column names #####
SymptomArulesSeq <- read_baskets("Sample.txt",sep = "[ \t]+",info = c("sequenceID","eventID","size"))
s1 <- cspade(SymptomArulesSeq, parameter = list(support = 0.1), control = list(verbose = TRUE),tmpdir = tempdir())
summary(s1)
as(s1, "data.frame")
sequence support
<{A}> 1
<{B}> 1
<{C}> 1
<{D}> 0.6666667
<{A},{D}> 0.6666667
<{B},{D}> 0.6666667
<{C},{D}> 0.6666667
<{B},{C},{D}> 0.6666667
<{A},{C},{D}> 0.6666667
<{A},{B},{C},{D}> 0.6666667
<{A},{B},{D}> 0.6666667
<{A},{C}> 1
<{B},{C}> 1
<{A},{B},{C}> 1
<{A},{B}> 1
間のアイテムを失うことなく完全な長さのシーケンスを見つける方法は?
データから、Aから始まる主な全長配列はA(1)、A→B(1)、A→B→C(1)、A→B→C→D(0.67) )、どうすれば中間のサブシーケンスを削除して、前述の結果を得ることができますか。
ここでの課題は、B、B->C などの間に形成されるシーケンスを削除する方法と、A->B->D のようなシーケンスを削除する方法です (ここでは、実際のシーケンスを失います。アイテム C は破棄されます)。 )