不明なWebページがいくつかあり、それらがどのWebサイトからのものかを確認したいと思います。各WebサイトのWebページの例があり、各Webサイトには固有のテンプレートがあると思います。私は完全な確実性を必要とせず、各Webページに一致するリソースを使いすぎたくありません。したがって、各WebサイトをクロールしてWebページを探すことは問題外です。
最善の方法は、各WebページのDOMのツリー構造を比較することだと思います。これを行うライブラリはありますか?
理想的にはPythonベースのソリューションを求めていますが、理解して実装できるアルゴリズムがあれば、それにも興味があります。
ありがとう