mahout で SVD ジョブを実行しようとしています。サイズ 372053 x 21338 (21338 個の一意の単語は N、372053 個のドキュメントは M) のマトリックス (たとえば A) を作成しました (ドキュメント x ターム)。したがって、私の行列 A のサイズは (M*N) です。mahout を使用して svd を実行し、きれいな固有ベクトルを取得しました (200 が R と言うように期待されるランクを与えました)。これで、サイズ R*N の固有ベクトル行列が作成されました。
SVD方程式の記述
A = U * S * V' (V' は V の転置)
ドキュメントの圧縮されたベクトルを取得するには、行列 A を新しい空間に変換する必要があります (LSI を実装しようとしています)。
mahout SVD から得られる出力は何ですか? (上記の式について知りたいです)生成された固有ベクトル行列の NamedVectors から固有値を取得できるというメーリング リストを読みました。
ここから新しい空間 (サイズ M*R) で文書用語行列 A を生成する方法を教えてください。
どんな助けでも大歓迎です:)