text - ビッグデータで類似テキストを検出するには?

翻译自：https://stackoverflow.com/questions/33784833 2015-11-18T16:05:36.503

1013 次

私が知っているように、このタスクでは simhash と minhash を利用できます。しかし、これらのアルゴリズムはすべて、テキストデータベース全体を走査する必要があり、これは非常に恐ろしいことです。タスクを加速できる最適化またはその他のアルゴリズムはありますか? 私が思いついたのは、テキストデータベースをいくつかの部分にスライスし、ペアごとの類似性を並行して取得することだけです。私のテキストデータベースには、約 10 億のレコードがあります。

text - ビッグデータで類似テキストを検出するには?

1 に答える 1

Related

Reference