私が知っているように、このタスクでは simhash と minhash を利用できます。しかし、これらのアルゴリズムはすべて、テキスト データベース全体を走査する必要があり、これは非常に恐ろしいことです。タスクを加速できる最適化またはその他のアルゴリズムはありますか? 私が思いついたのは、テキスト データベースをいくつかの部分にスライスし、ペアごとの類似性を並行して取得することだけです。私のテキスト データベースには、約 10 億のレコードがあります。
私が知っているように、このタスクでは simhash と minhash を利用できます。しかし、これらのアルゴリズムはすべて、テキスト データベース全体を走査する必要があり、これは非常に恐ろしいことです。タスクを加速できる最適化またはその他のアルゴリズムはありますか? 私が思いついたのは、テキスト データベースをいくつかの部分にスライスし、ペアごとの類似性を並行して取得することだけです。私のテキスト データベースには、約 10 億のレコードがあります。