0

mahout で SVD ジョブを実行しようとしています。サイズ 372053 x 21338 (21338 個の一意の単語は N、372053 個のドキュメントは M) のマトリックス (たとえば A) を作成しました (ドキュメント x ターム)。したがって、私の行列 A のサイズは (M*N) です。mahout を使用して svd を実行し、きれいな固有ベクトルを取得しました (200 が R と言うように期待されるランクを与えました)。これで、サイズ R*N の固有ベクトル行列が作成されました。

SVD方程式の記述

A = U * S * V' (V' は V の転置)

ドキュメントの圧縮されたベクトルを取得するには、行列 A を新しい空間に変換する必要があります (LSI を実装しようとしています)。

mahout SVD から得られる出力は何ですか? (上記の式について知りたいです)生成された固有ベクトル行列の NamedVectors から固有値を取得できるというメーリング リストを読みました。

ここから新しい空間 (サイズ M*R) で文書用語行列 A を生成する方法を教えてください。

どんな助けでも大歓迎です:)

4

1 に答える 1

0

Mahout での確率的 SVD を使用した LSI の出発点としては、こちらを参照してください。良い点は、この論文が進行中の折り畳みについても説明しており、svd 方程式の観点から出力形式が明示されていることです。

この作業は最新バージョン 0.8 に統合されており、SSVDCliジョブまたは mahout CLI を使用して使用できます。mahout ssvd <options>

于 2013-10-29T15:31:14.937 に答える