私が達成しようとしていることの説明:
- 入力 2 (N は必須ではありません) HTML 文書。
- HTML 形式を標準化する
- 2 つのドキュメントを比較します。外部スタイルは重要ではありませんが、ドキュメントにインラインで含まれるものはすべて含まれます。
- HTML ブロック要素レベルでデルタを決定します。
最後の点を拡張する:
同じサイトの 2 つのページがサイドバーを共有しており、おそらくコピー/貼り付けされた共通の祖先であると想像してください。各ページのサイドバーに若干の変更があります。diff はこれらの変更を明らかにします。次に、DOM を「ウォーク アップ」して、それらが共有する最初の共通ブロック要素を見つけるか、デフォルトで<body>
. この場合、私はそれを調べて、共通点を共有していることを見つけたいと思います<div id="sidebar">
。
私は DaisyDiff に精通しており、アプリケーションも似ています -- CMS の世界では。
また、Google diff-patch ライブラリで遊んでみました。
この種の非具体的な質問をして、誰かが役立つと思われるアドバイスやガイダンスを求めたいと思いました. 現在、あなたが私の頭に銃を向けて「CODE IT」と言った場合、DaisyDiff を Python で書き直して、このブロックレベルのロジックを追加します。しかし、もっと良い方法があるのではないかと思いました。暖かくてぼんやりした気分にさせてくれました。