私の問題は要約すると、同じHTMLページの複数のバージョンがあり、このページがPerlを使用して変更されたかどうかを知りたいです。これらのファイルには、html/javascriptと書かれた英語が含まれています。ユーザーが変更を追跡するページを決定すると、変更はWebインターフェイスでユーザーに表示されます。Webサイトが含まれているサーバー上のPerlスクリプトは、これらのページを時間の経過とともにダウンロードし、違いがないか確認します。
これまでのところ、ページが変更されたかどうかは識別できますが、追加または削除されたものは識別できません。これは、ファイルを独自の行の単語のみにフォーマットし、行ごとに比較することで実行されます。私は、変更が書かれる可能性が高いことを知っています。つまり、新しい文が追加または削除されました。この変化を正確に特定できるようにしたいと思います。
今日はText::ParagraphDiffを使おうとしてしばらく過ごしましたが、役に立ちませんでした。2つの内容を何度も繰り返す1つの長いファイルになりますが、強調表示された変更はありません。
だから私は誰かがこれを行うためのベストプラクティスや好ましい方法を知っているかどうか尋ねたいと思いました。ファイルがいつ変更され、いつ再び一致するかを追跡する長いアルゴリズムを開発する必要があるのではないかと心配しています。