c# - HTML構造をフィンガープリントして検証する最良の方法

Question

HTML/リンク構造のフィンガープリント/検証方法についてのあなたの意見を知りたいだけです.

私が解決したい問題は、たとえば 10 の異なるサイト、html ページのフィンガープリントです。そして、しばらくしてから、それらを検証できるようにしたいと考えています。サイトが変更された場合、リンクが変更された場合、検証が失敗した場合、そうでない場合は検証が成功した場合です。私の基本的なアイデアは、リンク構造を何らかの方法で分割し、ある種のツリーを実行して分析し、そのツリーからある種のコードを生成することです。しかし、私はまだブレインストーミングの段階にあり、誰かとこれについて話し合い、他のアイデアを知る必要があります.

したがって、アイデア、アルゴリズム、および提案は役に立ちます。

score 1 · Accepted Answer

サイトの生の HTML をいつでもハッシュして比較することができます。サイトは「最終編集日」を維持できると思いますが、これが常に更新されているかどうかはわかりません。

編集：私の間違いです。これは単にウェブサイトを以前のバージョンと比較する方法であり、あなたが意味する方法で実際にフィンガープリントするわけではありません.

score 1 · Accepted Answer

これを投げるだけです：

サイトをクロールして、すべてのリンクをサイトのマップを表す XML ドキュメントに入れてみませんか。

そのファイルに MD5 チェックサムを作成して保存します。その後、いつでも再クロールして XML を再作成し、チェックサムをやり直して、以前のチェックサムと比較できます。

一致しない場合は、リンク構造が変更されていますが、必ずしもどこにあるかはわかりません。

score 0 · Accepted Answer

ハッシュ、要約、その他の方法でフィンガープリントを作成する予定のデータや構造が何であれ、「そこにある」多くのWebサイトのさまざまな形式のノイズを考慮に入れてください。

このようなノイズまたはランダムコンテンツの例は次のとおりです。

会社の株価ティッカー
どこの都市でも気象条件
いくつかのページには、フッターまたはヘッダーのどこかに現在の（現在の）日時があります
広告コンテンツ（これらは、Webブラウザーの広告ブロッカーを打ち負かすために、サイトに固有のものに見えるようになっています）

c# - HTML構造をフィンガープリントして検証する最良の方法

3 に答える 3

Related

Reference