3

私は基本的に検索エンジンを作成しており、検索クエリに基づいて xml ドキュメントをランク付けするために tf*idf を実装したいと考えています。どうすれば実装できますか? どうすれば開始できますか?どんな助けでも感謝します。

4

4 に答える 4

2

Weka ライブラリがここで言及されていないのは驚くべきことです。Weka のStringToWordVector クラスは TF-IDF を実装しています。

于 2015-09-18T11:02:31.983 に答える
1

私は過去にこれを行い、Luceneを使用して TD*IDF データを取得しました。

ただし、かなりの量のいじりが必要だったので、他の解決策がより簡単であることがわかっている場合は、それらを使用してください。

org.apache.lucene.indexのTermFreqVectorおよびその他のクラスを調べることから始めます。

于 2012-04-18T13:56:09.727 に答える
1

アパッチ・マハウト:

https://github.com/apache/mahout/blob/master/mr/src/main/java/org/apache/mahout/vectorizer/TFIDF.java

Hadoop ファイル システムが必要だと思いますが、これは少し余分な作業です。しかし、それはうまく機能します。

于 2016-09-29T02:47:49.203 に答える