java - ドキュメントの類似性

Question

tf/idf を使用して、2 つのドキュメント間のコンサイン類似度を計算しました。いくつかの制限があり、あまりうまく機能しません。

ドキュメントの類似度を計算するために、LDA (潜在的ディリクレ配分) を探しました。私はこれについてあまり知りません。私の問題についても多くのものを見つけることができませんでした。

私の問題に関連するチュートリアルを教えてください。または、LDAでこのタスクを達成するにはどうすればよいかアドバイスをいただけますか???

ありがとう

PS: また、LDA でそのようなタスクを実行するためのソースコードはありますか??

score 1 · Accepted Answer

Lucene と Mahout を見たことがありますか?

これは役に立つかもしれません - Lucene と Mahout による潜在的ディリクレ配分。

score 0 · Accepted Answer

2 つのドキュメント間のコサイン類似度を計算するには、このサービスをお試しください

http://www.scurtu.it/documentSimilarity.html

import urllib,urllib2
import json
API_URL="http://www.scurtu.it/apis/documentSimilarity"
inputDict={}
inputDict['doc1']='Document with some text'
inputDict['doc2']='Other document with some text'
params = urllib.urlencode(inputDict)    
f = urllib2.urlopen(API_URL, params)
response= f.read()
responseObject=json.loads(response)  
print responseObject

score 0 · Accepted Answer

少し古いですが、まだ興味がある方は、このブログ投稿をご覧ください (免責事項: これは私自身のブログです)。そこに記載されているアルゴリズムとリンクされたコードは、特定のアプローチに心を向けていない場合、おそらく必要なことを実行します。

Shashikant のコメントに関しては、署名の長さがドキュメントに比例するため、コサイン類似度は適切なオプションではない可能性があります。一定の長さの署名が望ましいです。

score 0 · Accepted Answer

この種の問題に対する非常に一般的なソリューションであるLSA (Latent Semantic Analysis) について考えているかもしれません。

java - ドキュメントの類似性

4 に答える 4

Related

Reference