0

約 1,000 万件のクエリのクエリ ログがある場合、ユーザーにクエリを要求し、入力クエリに最も類似した 10 個のクエリを出力として表示するプログラムを作成する必要があります。また、スペル ミスの場合は、正しいスペルを提案する場合があります。

このコンテキストでは、ローカリティ センシティブ ハッシュに関するいくつかのチュートリアルを調べましたが、この問題にどのように適用できるか理解できません。最初に、ログを辞書順にソートすることを考えていました。しかし、ログ全体をメモリにロードするのは効率的ではない可能性があるため、ログのサイズに関する限り、ログをソートすることはお勧めできません。

だから、誰でも私に問題に取り組むためのアイデアを提案してください。ありがとうございました。

4

1 に答える 1

0

処理を並列化したい場合は、間違いなくこれを見たいと思うでしょう。Mahout での Minhash クラスタリング

  1. シングルを生成する (適切な n を持つ n グラム)
  2. MinHash を生成する
  3. LSH を実行する

LSH に関する非常に詳細な情報は、ここで見つけることができます: Mining Massive Datasets

于 2014-02-20T01:51:23.307 に答える