0

最初の質問へのリンクは次の場所にあります。

VB.NET を使用して Web ページの変更を検出する

編集しましたが、新しい質問として再送信するように言われました。ただし、上記のリンクを使用すると、一般的なアイデアを得ることができます。以下編集を引き継ぐ。ありがとうございました!

この質問に新しいひねりを加えて申し訳ありません。自分たちが何を望んでいるのかを考える時間が増えました。だから... Webページの変更を検出するのは、時間に依存するページの要素が頻繁に変更されるため、ばかげています。代わりに、ページ内のドキュメントを検出できるようにしたいと考えています。たとえば、そのページで変更される Excel、Word ドキュメント、または PDF がある場合。したがって、これらのドキュメントに対してハッシュを実行し、何らかのスケジュールで、新しいドキュメントが追加されたかどうか、または古いドキュメントが変更されたかどうかを確認します。ページに埋め込まれたドキュメントを検出してハッシュを実行する方法について何か提案はありますか? 再度、感謝します!

4

1 に答える 1

0

メタアドバイスから始めましょう。答えが .NET 自体に依存する可能性が高い質問をするとき、またはより一般的にプログラミングするときは、そのように言うタグを使用し、のようなタグは使用しないでくださいVB.NET。 .NET コミュニティは C# を使用していますが、多くの場合、C# を目にすることはありません。

実際の質問については、具体的には何を確認する必要があるかによって異なりますが、一般的には、CSS セレクターなどで識別される、ページ内の関心領域を定義する必要があるようです。見ているページにドキュメントの小さなリストがあり、そのリストが次のようにコード化されているとします。

<p>New this week!</p>
<ul class="new-docs">
  <li><a href="...">Some Doc</a></li>
  <li><a href="...">Some Other Doc</a></li>
</ul>

したがって、このページをダウンロードしてセレクターul.new-docsで要素を抽出し、HTML のブロック全体でハッシュ/チェックサムを使用するか、子アイテムのそれぞれを明示的に記録して新しい要素を比較することにより、変更をテストするコードを記述します。古いものと一緒にリストします。

このスレッドは、ページをダウンロードした後、セレクターによって HTML の特定のビットを実際に抽出するのに役立つ場合があります。

于 2014-01-20T20:09:27.813 に答える