bigdata - クエリログから最も類似したクエリを見つけて提案する

Question

約 1,000 万件のクエリのクエリログがある場合、ユーザーにクエリを要求し、入力クエリに最も類似した 10 個のクエリを出力として表示するプログラムを作成する必要があります。また、スペルミスの場合は、正しいスペルを提案する場合があります。

このコンテキストでは、ローカリティセンシティブハッシュに関するいくつかのチュートリアルを調べましたが、この問題にどのように適用できるか理解できません。最初に、ログを辞書順にソートすることを考えていました。しかし、ログ全体をメモリにロードするのは効率的ではない可能性があるため、ログのサイズに関する限り、ログをソートすることはお勧めできません。

だから、誰でも私に問題に取り組むためのアイデアを提案してください。ありがとうございました。

score 0 · Accepted Answer

処理を並列化したい場合は、間違いなくこれを見たいと思うでしょう。Mahout での Minhash クラスタリング

シングルを生成する (適切な n を持つ n グラム)
MinHash を生成する
LSH を実行する

LSH に関する非常に詳細な情報は、ここで見つけることができます: Mining Massive Datasets

bigdata - クエリ ログから最も類似したクエリを見つけて提案する

1 に答える 1

Related

Reference

bigdata - クエリログから最も類似したクエリを見つけて提案する