トピック表現を使用して、ユーザーとテキスト ドキュメント間の類似性を計算したいと考えています。つまり、各ドキュメントとユーザーは、トピック (神経科学、テクノロジーなど) のベクトルと、そのトピックがユーザー/ドキュメントにどの程度関連しているかによって表されます。
私の目標は、これらのベクトル間の類似性を計算して、類似したユーザー、記事、推奨記事を見つけることです。
Pearson Correlation を使用しようとしましたが、約 40k の記事に達し、ベクトルの長さが約 10k になると、メモリと時間がかかりすぎてしまいます。
私はnumpyを使用しています。
これを行うためのより良い方法を想像できますか? それとも(単一のマシン上で)避けられないのですか?
ありがとうございました