java - Java - tf*idf の実装?

Question

私は基本的に検索エンジンを作成しており、検索クエリに基づいて xml ドキュメントをランク付けするために tf*idf を実装したいと考えています。どうすれば実装できますか? どうすれば開始できますか？どんな助けでも感謝します。

score 2 · Accepted Answer

Weka ライブラリがここで言及されていないのは驚くべきことです。Weka のStringToWordVector クラスは TF-IDF を実装しています。

score 1 · Accepted Answer

私は過去にこれを行い、Luceneを使用して TD*IDF データを取得しました。

ただし、かなりの量のいじりが必要だったので、他の解決策がより簡単であることがわかっている場合は、それらを使用してください。

org.apache.lucene.indexの TermFreqVectorおよびその他のクラスを調べることから始めます。

score 1 · Accepted Answer

アパッチ・マハウト:

Hadoop ファイルシステムが必要だと思いますが、これは少し余分な作業です。しかし、それはうまく機能します。

4 に答える 4