私は基本的に検索エンジンを作成しており、検索クエリに基づいて xml ドキュメントをランク付けするために tf*idf を実装したいと考えています。どうすれば実装できますか? どうすれば開始できますか?どんな助けでも感謝します。
13301 次
4 に答える
2
Weka ライブラリがここで言及されていないのは驚くべきことです。Weka のStringToWordVector クラスは TF-IDF を実装しています。
于 2015-09-18T11:02:31.983 に答える
1
私は過去にこれを行い、Luceneを使用して TD*IDF データを取得しました。
ただし、かなりの量のいじりが必要だったので、他の解決策がより簡単であることがわかっている場合は、それらを使用してください。
org.apache.lucene.indexのTermFreqVectorおよびその他のクラスを調べることから始めます。
于 2012-04-18T13:56:09.727 に答える
1
アパッチ・マハウト:
Hadoop ファイル システムが必要だと思いますが、これは少し余分な作業です。しかし、それはうまく機能します。
于 2016-09-29T02:47:49.203 に答える