python - Pythonで大規模な行列計算を行うのに最適なモジュール？

Question

私は簡単なレコメンデーションシステムを開発していて、SVD、RBMなどの計算をしようとしています。

さらに説得力を持たせるために、MovielensまたはNetflixデータセットを使用してシステムのパフォーマンスを評価します。ただし、2つのデータセットには両方とも100万を超えるユーザーと1万を超えるアイテムがあり、すべてのデータをメモリに入れることは不可能です。このような大きなマトリックスを処理するには、いくつかの特定のモジュールを使用する必要があります。

SciPyにはこれを処理できるツールがいくつかあることを私は知っています。また、 python-recsysで使用されるdivisi2も良い選択のようです。それとも、私が知らないより良いツールがいくつかありますか？

どのモジュールを使用する必要がありますか？なにか提案を？

score 6 · Accepted Answer

SciPy、特にSparseをお勧めします。Dougalが指摘したように、Numpyはこの状況には適していません。

score 2 · Accepted Answer

私はカニという名前の別の解決策を見つけました、私はそれらのいくつかを見つけて比較してみます。

score -1 · Accepted Answer

データをメモリに配置するだけの場合は、64ビットのPythonと64ビットのnumpyを使用してください。十分な物理メモリがない場合は、OSレベルで仮想メモリを増やすことができます。仮想メモリのサイズは、hddサイズによってのみ制限されます。ただし、計算速度は別の獣です！

python - Pythonで大規模な行列計算を行うのに最適なモジュール？

3 に答える 3

Related

Reference