5

tf/idf を使用して、2 つのドキュメント間のコンサイン類似度を計算しました。いくつかの制限があり、あまりうまく機能しません。

ドキュメントの類似度を計算するために、LDA (潜在的ディリクレ配分) を探しました。私はこれについてあまり知りません。私の問題についても多くのものを見つけることができませんでした。

私の問題に関連するチュートリアルを教えてください。または、LDAでこのタスクを達成するにはどうすればよいかアドバイスをいただけますか???

ありがとう

PS: また、LDA でそのようなタスクを実行するためのソース コードはありますか??

4

4 に答える 4

1

Lucene と Mahout を見たことがありますか?

これは役に立つかもしれません - Lucene と Mahout による潜在的ディリクレ配分。

于 2010-02-17T01:57:37.343 に答える
0

2 つのドキュメント間のコサイン類似度を計算するには、このサービスをお試しください

http://www.scurtu.it/documentSimilarity.html

import urllib,urllib2
import json
API_URL="http://www.scurtu.it/apis/documentSimilarity"
inputDict={}
inputDict['doc1']='Document with some text'
inputDict['doc2']='Other document with some text'
params = urllib.urlencode(inputDict)    
f = urllib2.urlopen(API_URL, params)
response= f.read()
responseObject=json.loads(response)  
print responseObject
于 2013-02-12T11:38:58.587 に答える
0

少し古いですが、まだ興味がある方は、このブログ投稿をご覧ください (免責事項: これは私自身のブログです)。そこに記載されているアルゴリズムとリンクされたコードは、特定のアプローチに心を向けていない場合、おそらく必要なことを実行します。

Shashikant のコメントに関しては、署名の長さがドキュメントに比例するため、コサイン類似度は適切なオプションではない可能性があります。一定の長さの署名が望ましいです。

于 2012-05-26T01:03:08.017 に答える
0

この種の問題に対する非常に一般的なソリューションであるLSA (Latent Semantic Analysis) について考えているかもしれません。

于 2010-02-17T01:57:13.603 に答える