0

arulesパッケージを使用してマーケット バスケット分析を実行しようとしていますsummary()が、オブジェクトに対して関数を使用しitemMatrixて最も頻繁に使用されるアイテムを確認すると、数値が加算されません。私が行った場合:

library(arules)
x <- read.transactions("Supermarket2014-15.csv")
summary(x)

私は得る:

transactions as itemMatrix in sparse format with
 5001 rows (elements/itemsets/transactions) and
 997 columns (items) and a density of 0.003557162 

most frequent items:    
45      28      42      35      22 (Other) 
503     462     444     440     413   15474 

しかし、forループまたは Excel で確認すると、製品 45 のカウントは 503 ではなく 513 です。奇妙なことに、すべての合計(15474+413+440+444+462+503)を合計すると、取引された製品の合計の正しい数が得られます。

データにはいくつかのNA値があり、製品は因子です。

str(x)

生データは次のとおりです (日の範囲は 1 から 28、製品の範囲は 1 から 50):

生データ

4

1 に答える 1

0

str(x)呼び出しの結果を見ると、 の下@iteminfoに と$labelsのようなラベルが付いている項目があることがわかります"1;1"。これは、ファイルを読み込んだ後に項目が正しく区切られていないことを意味します。 のデフォルトの区切り文字read.transactions()は空白ですが、そこに(いくつかの)セミコロンがあります。で試してみてsep=";"くださいread.transactions()

于 2016-12-28T10:40:00.060 に答える