hadoop - データソースとしてHBaseを使用してドキュメントのTF-IDFを計算します

Question

HBaseに保存されているドキュメントのTF（用語頻度）とIDF（逆ドキュメント頻度）を計算したいと思います。

また、計算されたTFをHBaseテーブルに保存し、計算されたIDFを別のHBaseテーブルに保存したいと思います。

案内してもらえますか？

BayesTfIdfDriver私はから見てきましたMahout 0.4が、私は有利なスタートを切っていません。

score 1 · Accepted Answer

ソリューションの概要は非常に単純です。

TF-IDF のウィキペディアページは、式の詳細を覚えるのに適したリファレンスです: http://en.wikipedia.org/wiki/Tf *idf

2 に答える 2