私は、評価予測のために MovieLens/Netflix タイプのデータ セットを使用して SVD の使用を開始する方法を正確に理解するのに苦労しています。Python/Java の単純なサンプル、または関連するプロセスの基本的な擬似コードをいただければ幸いです。全体的な概念を要約した論文や投稿が多数ありますが、提案されたライブラリをいくつか使用しても、実装を開始する方法がわかりません。
私の知る限り、初期データセットを次のように変換する必要があります。
初期データセット:
user movie rating
1 43 3
1 57 2
2 219 4
次のようにピボットする必要があります。
user 1 2
movie 43 3 0
57 2 0
219 0 4
この時点で、利用可能なライブラリによって提供されるように、このマトリックスを SVD アルゴリズムに挿入し、(何らかの方法で) 結果を抽出するだけでよいのでしょうか?
私が読んだいくつかの情報:
http://www.netflixprize.com/community/viewtopic.php?id=1043
http://sifter.org/~simon/journal/20061211.html
http://www.slideshare.net/NYCPredictiveAnalytics/building-a -recommendation-engine-an-example-of-a-product-recommendation-engine
http://www.slideshare.net/bmabey/svd-and-the-netflix-dataset-presentation
.. および他の多くの論文
一部のライブラリ:
LingPipe(java)
Jama(java)
Pyrsvd(python)
特に基本的なデータセットについては、どんなヒントでも大歓迎です。どうもありがとう、オリ