3

R の arulesSequence パッケージの cspade アルゴリズムからサブシーケンスを削除する方法、たとえば、私のデータ (Sample.txt) が以下の場合

列名: sequenceID、EventID、size、Item

1   1   1   A
1   2   1   B
1   3   1   C
1   4   1   D
2   1   1   A
2   2   1   B
2   3   1   C
3   1   1   A
3   2   1   B
3   3   1   C
3   4   1   D

以下の arulesSequence コード行を実行した後

library("arulesSequences")
#### while importing the Sample.txt remove the column names #####
SymptomArulesSeq <- read_baskets("Sample.txt",sep = "[ \t]+",info =  c("sequenceID","eventID","size"))
s1 <- cspade(SymptomArulesSeq, parameter = list(support = 0.1), control = list(verbose = TRUE),tmpdir = tempdir())
summary(s1)
as(s1, "data.frame")

sequence    support
<{A}>   1
<{B}>   1
<{C}>   1
<{D}>   0.6666667
<{A},{D}>   0.6666667
<{B},{D}>   0.6666667
<{C},{D}>   0.6666667
<{B},{C},{D}>   0.6666667
<{A},{C},{D}>   0.6666667
<{A},{B},{C},{D}>   0.6666667
<{A},{B},{D}>   0.6666667
<{A},{C}>   1
<{B},{C}>   1
<{A},{B},{C}>   1
<{A},{B}>   1

間のアイテムを失うことなく完全な長さのシーケンスを見つける方法は?

データから、Aから始まる主な全長配列はA(1)、A→B(1)、A→B→C(1)、A→B→C→D(0.67) )、どうすれば中間のサブシーケンスを削除して、前述の結果を得ることができますか。

ここでの課題は、B、B->C などの間に形成されるシーケンスを削除する方法と、A->B->D のようなシーケンスを削除する方法です (ここでは、実際のシーケンスを失います。アイテム C は破棄されます)。 )

4

0 に答える 0