java - セマンティック/データマッチングにはどのような実用的な（そして軽量の）テクニックがありますか？

Question

ユーザーが非構造化キーワードを公開できるようにするアプリケーションがあります。同時に、他のユーザーは、1つ以上の指定されたキーワードに一致する必要があるアイテムを公開できます。どちらのユーザーセットも使用できるキーワードに制限はありません。したがって、実際にはユーザーが同じものに異なるキーワードを使用したか、十分に近い場合、衝突を期待するだけでは一致がほとんどない可能性があります。「自転車」と「サイクリング」、または「肉」と「食品」）。

これはモバイルデバイス（Android）で動作するために必要なので、効率と小さなフットプリントのためにマッチングの精度を犠牲にして満足しています。s-matchについては知っていますが、これは15MBのバッキング辞書に依存しているため、理想的ではありません。

他にどのようなアイデア/アプローチ/フレームワークがこれに役立つ可能性がありますか？

score 1 · Accepted Answer

「自転車」と「サイクリング」の例は、2 つの単語が多少関連しているため、レーベンシュタイン編集距離アルゴリズムを使用することで対処できます。しかし、あなたの「肉」と「食べ物」の例は、もちろんコンセプトセットやターゲットオーディエンスが食通に限定されていない限り、かなりの補助辞書を必要とします.

辞書を Web サービスとしてホストし、必要に応じてデータにアクセスすることを検討しましたか? もちろん、欠点は、アプリがネットワークカバレッジ内でしか機能しないことです。

java - セマンティック/データマッチングにはどのような実用的な（そして軽量の）テクニックがありますか？

1 に答える 1

Related

Reference