HTMLファイルを比較して違いを示すツールをphpで書いています。現在、2 つの HTML ファイルのパーセンテージの差を計算する効率的な方法を探しています。これらのファイルは任意の長さにすることができます (私が持っているファイルは 300000 文字までの長さにすることができます)。
いくつかの調査の後、O(n*m) のアルゴリズムであり、スペース O(n*m) を必要とするレーベンシュタイン距離に出くわしました: PHP バージョンは最大 255 文字と、O(n) スペースの独自の実装のみをサポートできます。 、遅すぎました。その後、php 関数の similar_text を試してみましたが、そのアルゴリズムも非常に大きな HTML ファイルには遅すぎます。
そこで、HTML ファイルを比較するための、より効率的な別のアルゴリズムを探しています。近似アルゴリズムも問題ありません。これを行う方法について誰かアドバイスをいただけますか?