約 1,000 万件のクエリのクエリ ログがある場合、ユーザーにクエリを要求し、入力クエリに最も類似した 10 個のクエリを出力として表示するプログラムを作成する必要があります。また、スペル ミスの場合は、正しいスペルを提案する場合があります。
このコンテキストでは、ローカリティ センシティブ ハッシュに関するいくつかのチュートリアルを調べましたが、この問題にどのように適用できるか理解できません。最初に、ログを辞書順にソートすることを考えていました。しかし、ログ全体をメモリにロードするのは効率的ではない可能性があるため、ログのサイズに関する限り、ログをソートすることはお勧めできません。
だから、誰でも私に問題に取り組むためのアイデアを提案してください。ありがとうございました。