performance - テキスト文書間の類似性を比較するための高速で正確な方法

翻译自：https://stackoverflow.com/questions/17549926 2013-07-09T13:48:20.697

1806 次

ドキュメントの 2 つのグループ (たとえば、1 つのグループに 1000 個のドキュメントがある場合) を比較し、2 番目のグループのどのドキュメントが最初のグループの特定のドキュメントに最も類似しているかを判断する必要があります。これまでのところ、TF/IDF とコサイン類似度を使用しましたが、TF/IDF のようなより高速で正確なものが必要です :) より高速なアルゴリズムまたは TF/IDF 時間の改善を提案してもらえますか?

performance - テキスト文書間の類似性を比較するための高速で正確な方法

1 に答える 1

Related

Reference