問題タブ [recommender-systems]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 大規模で疎な行列のすべての列間のピアソン係数を計算する最も速い方法は何ですか?
バックグラウンド
Amazon Review Dataのようなまばらなデータセットを取得しました。すべての列間の PCC (ピアソン相関係数) を計算し、後で再利用できるように保存したいと思います。ただし、結果が出るまでに時間がかかります。
たとえば、マトリックスには約 80 万列と 30 万行がありますが、各列について、2 つか 3 つの行だけが値を持ち、他の行は 0 (欠損値) です。
妥当な期間内に PCC 行列を取得することは可能ですか?
私が試したこと
私はこの仕事をするためにPythonを使用しています。私が試した方法は次のとおりです。
-
1.
2.
Python では、単一のプロセスと単一のスレッドを使用して、for loop
次のようにシミュレートして実行しました。
約200日かかります...
解決策はありますか?
したがって、この問題を解決するのを手伝ってもらえますか、それとも別の角度から考えてみてください。
200DAYSありがとうございました!