3

search_query [factor]、movie_name [factor]、clicks [int]の列のデータセットがあり、約1,800,000行あります。reshape2パッケージのdcast関数を使用して、クリックを値として検索クエリと映画名からマトリックスを作成しようとすると、次のエラーが発生します。

    train.matrix <- dcast(train, query ~ movie, value.var = "clicks")

    Aggregation function missing: defaulting to length
    Error in .Call("split_indices", index, group, as.integer(n)) : 
       negative length vectors are not allowed
    In addition: Warning message:
    In split_indices(seq_along(.value), .group, .n) :
      NAs introduced by coercion

データを100,000行にサブセット化すると、reshape2パッケージからdcastを問題なく実行できます。

    train.matrix <- dcast(train[1:100000,], query ~ movie, value.var = "clicks")

映画の値の数は69,598で、クリック値はすべて正であり、NAはありません。Rのバージョン2.15.1を実行しています。

何が問題になる可能性がありますか、データセットが大きすぎますか?もしそうなら、どうすればこのデータセットで同じ結果を達成できますか?

よろしくお願いします!

4

0 に答える 0