質問:各特異値に関連する最も重要な単語を簡単に確認する方法はありますか?
背景:私は Mahout の特異値分解ツールをニュース記事のコレクションに適用しました。記事は、1) スポーツと 2) ビジネスの 2 つのトピックから構成されています。それぞれの特異値に関連付けられている最も重要な単語を確認したいと思います。たとえば、ある特異値の場合、最も顕著な単語はスポーツ用語であると予想できます: スコア、チーム、プレーヤー、コーチ。別の特異値については、会社、利益、収益などのビジネス用語が表示されると予想される場合があります。
私のアプローチ:特異値ごとにファイルを作成することを検討しています。特定の特異値について、単語は重要度の高い順に並べられています。これは単なるアイデアです。私は提案を受け入れます。
以下は、これまでに Mahout の特異値を生成するために使用したコードです。
/mahout-distribution-0.7/bin/mahout svd
-i /vectors/tfidf-vectors/
-o /svd-values/
--numRows 100
--numCols 591
-r 100