0

Solr データストアに格納されている「指紋」タイプのデータを比較するときに、Solr は最も近い一致を提供できますか。例えば、

   eJyFk0uyJSEIBbcEyEeWAwj7X8JzfDvKnuTAJIojWACwGB4QeM  
   HWCw0vLHlB8IWeF6hf4PNC2QunX3inWvDCO9WsF7heGHrhvYV3qvPEu-  
   87s9ELLi_8J9VzknReEH1h-BOKRULBwyZiEulgQZZr5a6OS8tqCo00cd  
   p86ymhoxZrbtQdgUxQvX5sIlF_2gUGQUDbM_ZoC28DDkpKNCHVkKCgpd  
   OHf-wweX9adQycnWtUoDjABumQwbJOXSZNur08Ew4ra8lxnMNuveIem6  
   LVLQKsIRLAe4gbj5Uxl96RpdOQ_Noz7f5pObz3_WqvEytYVsa6P707Jz  
   j4Oa7BVgpbKX5tS_qntcB9G--1tc7ZDU1HamuDI6q07vNpQTFx22avyR

非常に類似したものが提示された場合、このレコードを見つけることができますか? また、信頼スコアを返すことはできますか?

4

2 に答える 2

1

単純なアプローチの 1 つは、あいまい検索を使用して最初のヒットを (スコアで) 選択することです。次に、ヒットが一致しているかどうかを確認する必要があります。

しかし、そのような長いトークンでパフォーマンスが問題になるかどうかはわかりません. ファジーパフォーマンスが大幅に改善された Lucene4.0 を使用します。

于 2012-07-13T17:49:53.013 に答える
0

Ngramフィルターファクトリを試してみてください。 一致する/類似の指紋と一致する最小/最大グラムサイズを選択できます。

minGramSizeとmaxGramSizeの範囲が狭い場合は、誤検知を繰り返すことなく、類似したフィンガープリントを持つドキュメントを照合できます。

于 2012-07-13T23:13:26.753 に答える