HBaseに保存されているドキュメントのTF(用語頻度)とIDF(逆ドキュメント頻度)を計算したいと思います。
また、計算されたTFをHBaseテーブルに保存し、計算されたIDFを別のHBaseテーブルに保存したいと思います。
案内してもらえますか?
BayesTfIdfDriver
私はから見てきましたMahout 0.4
が、私は有利なスタートを切っていません。
ソリューションの概要は非常に単純です。
TF-IDF のウィキペディア ページは、式の詳細を覚えるのに適したリファレンスです: http://en.wikipedia.org/wiki/Tf *idf