4

私は簡単なレコメンデーションシステムを開発していて、SVD、RBMなどの計算をしようとしています。

さらに説得力を持たせるために、MovielensまたはNetflixデータセットを使用してシステムのパフォーマンスを評価します。ただし、2つのデータセットには両方とも100万を超えるユーザーと1万を超えるアイテムがあり、すべてのデータをメモリに入れることは不可能です。このような大きなマトリックスを処理するには、いくつかの特定のモジュールを使用する必要があります。

SciPyにはこれを処理できるツールがいくつかあることを私は知っています。また、 python-recsysで使用されるdivisi2も良い選択のようです。それとも、私が知らないより良いツールがいくつかありますか?

どのモジュールを使用する必要がありますか?なにか提案を?

4

3 に答える 3

6

SciPy、特にSparseをお勧めします。Dougalが指摘したように、Numpyはこの状況には適していません。

于 2012-08-29T03:54:04.520 に答える
2

私はカニという名前の別の解決策を見つけました、私はそれらのいくつかを見つけて比較してみます。

于 2012-11-22T07:10:46.527 に答える
-1

データをメモリに配置するだけの場合は、64ビットのPythonと64ビットのnumpyを使用してください。十分な物理メモリがない場合は、OSレベルで仮想メモリを増やすことができます。仮想メモリのサイズは、hddサイズによってのみ制限されます。ただし、計算速度は別の獣です!

于 2012-08-29T04:32:16.787 に答える