一連のトランザクションを異なるグループにグループ化する必要があります。この形式のテキストファイルの私のデータ:
T1 17 20 22 35 37 60 62
T2 39 51 53 54 57 65 73
T3 17 20 21 22 34 37 62
T4 20 22 54 57 65 73 45
T5 20 54 57 65 73 75 80
T6 2 20 54 57 59 63 71
T7 2 20 22 57 59 71 66
T8 17 20 28 29 30 34 35
T9 16 20 28 32 54 57 65
T10 16 20 22 28 57 59 71
-
-
など、5000 行を超えています。各行は 1 つのトランザクションを表します。
私がこれまでにやったこと:
txIn<-read.transactions("data2.txt",format="basket",sep=" ")
d<-dissimilarity(txIn,method="Jaccard")
library("cluster")
clustersA<-pam(d,k=100)
txOut <- paste("txOu", ".txt")
write.table(clustersA$clustering, file="txOu",sep=" ")
ただし、ファイルにはトランザクション番号とそのクラスターが次のように保存されます。
"x"
"1" 1
"2" 1
"3" 1
"4" 1
"5" 1
"6" 2
"7" 2
"8" 2
"9" 1
"10" 2
-
-
たとえば、次のように保存する必要があります。
クラスタ 1:
T1 17 20 22 35 37 60 62
T2 39 51 53 54 57 65 73
T3 17 20 21 22 34 37 62
T4 20 22 54 57 65 73 45
T5 20 54 57 65 73 75 80
T9 16 20 28 32 54 57 65
クラスタ 2:
T6 2 20 54 57 59 63 71
T7 2 20 22 57 59 71 66
T8 17 20 28 29 30 34 35
T10 16 20 22 28 57 59 71
-
-
など、各クラスターを個別に処理したいためです。
たくさん検索してください。情報、例、ドキュメント、ヘルプが必要です。