私は、さまざまな情報源から情報を得ることができるシステムを持っています。正確な (または非常に類似した) 情報を追加しないようにしたいと考えています。次に例を示します。
テキスト A: ある日、一人の男が丘を越えて太陽を見た
テキスト B: ある日、男が丘を越えて太陽を見た
テキスト C: ある週、ある女性が丘の上から太陽を見た
この場合、情報のブロック間の違いについて何らかの数値を取得したいと考えています。そこから、次のロジックを適用できます。
- テキストをデータベースに追加するときは、データベース内の既存の値を確認してください
- 値が非常に似ている場合は追加しないでください
- 値が十分に異なる場合は、追加してください
そのため、データベース内の情報は重複ではなく、異なるものになりますが、多少の余裕はあります。
Pythonでこれを試みる方法を誰か教えてもらえますか?