1

HBaseに保存されているドキュメントのTF(用語頻度)とIDF(逆ドキュメント頻度)を計算したいと思います。

また、計算されたTFをHBaseテーブルに保存し、計算されたIDFを別のHBaseテーブルに保存したいと思います。

案内してもらえますか?

BayesTfIdfDriver私はから見てきましたMahout 0.4が、私は有利なスタートを切っていません。

4

2 に答える 2

1

ソリューションの概要は非常に単純です。

  1. 各単語の単語頻度とドキュメント頻度の両方を保存して、hbase テーブルで単語数をカウントします。
  2. reduce フェーズで、各単語の用語頻度とドキュメント頻度を集計します
  3. ドキュメントの数を指定して、集計結果をもう一度スキャンし、ドキュメントの頻度に基づいて IDF を計算します。

TF-IDF のウィキペディア ページは、式の詳細を覚えるのに適したリファレンスです: http://en.wikipedia.org/wiki/Tf *idf

于 2012-06-11T15:37:58.170 に答える