mapreduce - Mahout テキストマイニング - 特定の特異値の最も重要な単語

Question

質問:各特異値に関連する最も重要な単語を簡単に確認する方法はありますか?

背景:私は Mahout の特異値分解ツールをニュース記事のコレクションに適用しました。記事は、1) スポーツと 2) ビジネスの 2 つのトピックから構成されています。それぞれの特異値に関連付けられている最も重要な単語を確認したいと思います。たとえば、ある特異値の場合、最も顕著な単語はスポーツ用語であると予想できます: スコア、チーム、プレーヤー、コーチ。別の特異値については、会社、利益、収益などのビジネス用語が表示されると予想される場合があります。

私のアプローチ:特異値ごとにファイルを作成することを検討しています。特定の特異値について、単語は重要度の高い順に並べられています。これは単なるアイデアです。私は提案を受け入れます。

以下は、これまでに Mahout の特異値を生成するために使用したコードです。

/mahout-distribution-0.7/bin/mahout svd 
-i /vectors/tfidf-vectors/
-o /svd-values/
--numRows 100 
--numCols 591 
-r 100

score 1 · Accepted Answer

プロジェクトでこれを直接行う方法はありません。とにかく、そのコードを自分で知りません。しかし、私はあなたに一般的な考えを伝えることができます。

SVD では、A ~= US V' のような分解が得られます。A がドキュメント用語マトリックスであるとしましょう。つまり、A の列と V' の列は単語に対応します。V' の行は (S の) 特異値に対応します。実際、それらは正しい特異ベクトルです。これらから、特異ベクトルが単語にどのように関係しているかを直接読み取ることができます。最大の絶対値は、最も重要な単語です。

mapreduce - Mahout テキスト マイニング - 特定の特異値の最も重要な単語

1 に答える 1

Related

Reference

mapreduce - Mahout テキストマイニング - 特定の特異値の最も重要な単語