Rのarulesパッケージは、クラス'transactions'を使用します。したがって、この関数apriori()
を使用するには、既存のデータを変換する必要があります。2列で約1.6mmの行を持つマトリックスがあり、次のようにデータを変換しようとしました。
transaction_data <- as(split(original_data[,"id"], original_data[,"type"]), "transactions")
ここで、original_dataは私のデータマトリックスです。データ量が多いため、64GBのRAMを搭載した最大のAWSAmazonマシンを使用しました。しばらくすると
結果のベクトルが「AnswerType」のベクトル長制限を超えています
マシンのメモリ使用量はまだ60%で「のみ」でした。これはRベースの制限ですか?サンプリングを使用する以外にこれを回避する方法はありますか?データの1/4のみを使用する場合、変換は正常に機能しました。
編集:指摘したように、変数の1つは文字ではなく要因でした。変更後、変換は迅速かつ正確に処理されました。