HTMLページのコンテンツの変更をインテリジェントに検出できるアルゴリズム/ライブラリ(できればC#で)を探しています。
たとえば、ページが techcrunch.com の場合、ページに新しい投稿または大幅な変更がある場合にのみ一致します。HTMLコメント、JavaScript、コメント数などのマイナーアップデートなどは無視されます...
誰かが私を正しい方向に向けることができますか?
HTMLページのコンテンツの変更をインテリジェントに検出できるアルゴリズム/ライブラリ(できればC#で)を探しています。
たとえば、ページが techcrunch.com の場合、ページに新しい投稿または大幅な変更がある場合にのみ一致します。HTMLコメント、JavaScript、コメント数などのマイナーアップデートなどは無視されます...
誰かが私を正しい方向に向けることができますか?
JavaScript を使用して、ページまたはページの特定の部分にある要素の数をカウントできます。JS を実装して変更を検出する方法は何千もあります。
私の仮定では、C# プログラムでページを要求します。
実際、それを行うには何百もの方法があります。
私はあなたに1つあげます:
ナンバーワン、最も簡単でダミーのアルゴリズム..
while(true) {
checkModifyDate();
if(date is newer) {
do anything you want...
}
do it again in next 10 mins()
}
その checkModifyDate() 関数は、HTTP ヘッダーの変更を「のみ」チェックします。
そうすれば、後で何でもできます。
xxx 分ごとに実行されるタイマー オブジェクトまたはスレッドに追加して、自動的にジョブを実行するように設定できます。
お役に立てれば。