0

R でパッケージを使用してアソシエーション ルールを見つけようとしてarulesいます。csv ファイルを使用してトランザクション オブジェクトを作成しています。間違ったアイテム セットを取得しています。データはこんな感じ

137,lidocaine
138,pregabalin
139,esomeprazole,nadolol,atorvastatin
140,hydromorphone
141,ondansetron,enoxaparin,metoclopramide
142,fluticasone
143,trandolapril,amlodipine,fluticasone,esomeprazole
144,meloxicam
145,lidocaine
146,atorvastatin
147,fluticasone
here is the R code I am using
library("arules")
txn <- read.transactions("basket.csv", rm.duplicates= TRUE,format="basket",sep=",",cols =1);
txn@itemInfo
The item list I am getting has repeated items
labels
1       amlodipine
2    atorvastatin"
3       enoxaparin
4     esomeprazole
5    esomeprazole"
6      fluticasone
7     fluticasone"
8   hydromorphone"
9       lidocaine"
10      meloxicam"
11 metoclopramide"
12         nadolol
13     ondansetron
14     pregabalin"
15    trandolapril

項目 4 と 5 を見ると、それらは同じですが、引用符のために異なる扱いになっています。項目 6 と 7 の場合も同様です。

これを解決する方法、またはこれが起こっている理由はありますか?

4

1 に答える 1

0

私は R ツールに詳しくありませんが、AI の学生であり、関連付けルールについて少し知っています。

あなたのデータファイルに関連していると思います。アイテム リストに注目すると、データ ファイルの行末にある各アイテムがアイテム リストで引用符付きで表示されていることがわかります。逆の場合も同様です。

したがって、これらのアイテムが 2 回出現する理由は、日付ファイルの行末に 1 回、行の途中にもう 1 回出現したためです。

繰り返しますが、私は R ツールに詳しくありませんが、データ ファイルのすべての行の最後にスペースを 1 つ追加するなどの簡単な修正でこの問題は解決すると思います。

于 2014-07-25T20:26:29.347 に答える