テキストの不規則性を見つけるライブラリやソフトウェアを知っている人はいますか? たとえば、私が持っているとしましょう...
1. 名前 1、コメント 2. 名前 2、コメント 3. 名前 3 、コメント 5. 名前 10、コメント
このソフトウェアまたはライブラリは、最初に類似するテキストの部分を切り取ります (圧縮ソフトウェアがテキストの類似した部分を繰り返しエンコードして圧縮するのとよく似ています) が、エラー トレランスのための変数を使用して、テキストの類似した部分を見つけることができます。 、テキスト比較アプリケーションまたは差分/マージツールと非常によく似ており、実際に異なると見なされるものを強調表示できます. このツールを作ることを考えていますが、車輪の再発明はしたくありません。これをリモートで実行できるものがあれば、このプロジェクトに役立つ可能性があるか、少なくとも作成しないことを知りたいです。言うまでもなく、この回答は他の人が同じものを探すのに役立つ可能性があります。需要は供給に対して十分に高いと思います。