1

HTMLテーブルの別の行が追加、変更、または削除された場合にシステムトレイ通知を受け取るために、スクリーンスクレイピングを使用する個人的なプロジェクトを行っています。

思った前にこれをやったことがあります。正規表現を使ってみましょう。それだけですが、好奇心旺盛な人であるため、別のパラダイムを持ちながらも簡単に使用できる何かが他にあるのではないかと思いました。

私はDOMとX-Path、そしてすべてのxml'ishアプローチについて知っています。箱の外にあるものを探しています。さまざまなサイトを集約するプラグインシステムを作成できるように、一連のルールで定義することもできます。

4

3 に答える 3

3

HTML スクレイピングのオプションを参照してください

于 2008-09-17T07:42:54.893 に答える
0

HTML ファイルが変更されるたびに通知を受け取ることが主なユースケースであると仮定すると、標準の diff ツールを使用してから、変更された行をループしてルールを適用してみませんか?

また、これがサーバーと監視しているファイルにアクセスできる状況である場合は、CVS (または同様のもの) を使用してすべてをソース管理下に置き、コミットを監視するだけでよい場合があります。Web 上のランダムなサイトにこのアプローチを使用する場合は、適切な URL の html を定期的にダウンロードし、それをソース管理にコミットして差分を監視するスクリプトを作成するだけです。

あまり実用的ではありませんが、箱の外です。

于 2008-09-17T07:44:51.330 に答える
-1

SgmlReaderHtmlTidyなどを使用してソースを有効な XHTML/XML に変換できる場合は、XSLT を使用できます。スクレイピングするサイトごとに XSL テンプレートを作成するだけです。

于 2008-09-17T07:43:04.267 に答える