私のパンダのデータフレームは次のようになります。
Movieid review movieRating wordEmbeddingVector
1 "text" 4 [100 dimensional vector]
私は doc2vec 実装を実行しようとしていますが、映画 ID でグループ化し、wordEmbeddingVector のベクトルの合計を取り、合計ベクトルと入力ベクトルの間のコサイン類似度を計算できるようにしたいと考えています。
movie_groupby = movie_data.groupby('movie_id').agg(lambda v : cosineSimilarity(np.sum(movie_data['textvec'])), inputvector)
しかし、それは何年にもわたって実行されているようで、何か間違ったことをしているのではないかと思いました. そこで、類似度関数を削除して、グループ化して合計しようとしました。しかし、これも終了していないようです (まあ 1 時間以上) 私は何か間違ったことをしているのですか、それとも実際にはそれほど遅いのですか? データ フレームに 135392 行あるため、大規模ではありません。
movie_groupby = movie_data.groupby('movie_id').agg(lambda v : np.sum(movie_data['textvec']))
とても有難い!