私はベクトル空間モデルを使用して検索エンジンプロジェクトを行っていますが、そのために用語ドキュメントマトリックスを作成し、それにSVDを適用する必要があります。
行として用語を、列としてドキュメントを使用する必要がありますか?
私はJavaでそれを行っているので、次のようになります。
count [keywordList.size()] [listOfFilesinCorpus.length];
またはそれは逆である必要がありますか?この2D配列をApacheCommonsmathに渡す必要があります:
RealMatrix A = Array2DRowRealMatrix(TDM);
ここで、TDMはドキュメントマトリックスという用語です。
次元として用語が必要です。次に、ベクトル空間内のドキュメントを比較します。助けてください、ありがとう。